АВТОМАТИЧНЕ РОЗПІЗНАВАННЯ ІСПАНСЬКОЇ МОВИ: СОЦІОЛІНГВІСТИЧНІ ЧИННИКИ ТОЧНОСТІ ТА ТИПОЛОГІЯ ПОМИЛОК

Юлія Тарасенко

doi:10.17721/2663-6530.2025.48.11

Автор(и)

Юлія Тарасенко магістрантка кафедри романської філології Київський національний університет імені Тараса Шевченка (Міністерство освіти і науки України) 01601, м. Київ, бульвар Тараса Шевченка, 14 , Київський національний університет імені Тараса Шевченка

DOI:

https://doi.org/10.17721/2663-6530.2025.48.11

Ключові слова:

автоматичне розпізнавання мовлення, іспанська мова, ASR, WER, CER, акцент, соціолінгвістика

Анотація

У статті досліджено ефективність автоматичного розпізнавання іспанської мови (ASR) на матеріалі корпусу із 304 аудіозаписів мовців різного віку, статі та з різними акцентами. Метою дослідження є оцінка точності системи Google Speech-to-Text, виявлення типових помилок та визначення впливу соціолінгвістичних чинників на якість транскрипції. Для аналізу використано метрики WER та CER, а також кількість замін, видалень і вставок. Результати показали середню точність 94,7 %, при цьому основним типом помилок стали заміни лексем. Найточніше система розпізнавала мовлення носіїв північнопіренейського акценту, а найнижчий рівень коректності спостерігався у підлітків та носіїв аргентинського варіанту іспанської. Практичне значення дослідження полягає у можливості вдосконалення ASR-моделей з урахуванням діалектних та соціальних характеристик мовців.

Посилання

Dudchenko, I. V. (2020). Holosove upravlinnia komputerom na osnovi hlosariiu za dopomohoiu alhorytmiv rozpiznavannia movy [Diploma project, National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”]. https://ela.kpi.ua/server/api/core/bitstreams/781f9949-a7c4-4033-bcd6-403b6449e866/content

Nakhood, O. (2025). Avtomatychne rozpiznavannia ukrains’koho movlennia na osnovi hlybokoho navchannia. https://doi.org/10.36074/logos-24.01.2025.043

Samvelian, A. R. (2021). Rozrobka systemy avtomatychnoho rozpiznavannia ukrains’koho movlennia [Diploma thesis, National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”]. https://ela.kpi.ua/server/api/core/bitstreams/af954b61-6f2e-47b7-963b-aac8648b500f/content

Vintsiuk, T. K., Sazhok, M. M., Seliukh, R. A., Fedorin, D. Ya., Iukhymenko, O. A., & Robeiko, V. V. (2018). Avtomatychne rozpiznavannia, rozuminnia ta syntez movlennievykh syhnaliv v Ukraini. Upravliuiuchi systemy i mashyny, (6), 7–24. https://nasplib.isofts.kiev.ua/handle/123456789/161562

Ardila, R., Branson, M., Davis, K., Kohler, M., Meyer, J., Henretty, M., Morais, R., Saunders, L., Tyers, F., & Weber, G. (2019). Common Voice: A massively-multilingual speech corpus. https://arxiv.org/abs/1912.06670

Gómez Seibane, S., San Martín, M., Herras, J., & Mata, G. (2024). Is ASR a suitable tool for creating spoken linguistic corpora in European Spanish? Procesamiento del Lenguaje Natural, 73, 165–176. https://corpusrural.es/publicaciones/2024/GomezSeibane-et-AL-SEPLN-2024.pdf

Jurafsky, D., & Martin, J. H. (2018). Speech and language processing. Stanford University. https://web.stanford.edu/~jurafsky/slp3/

Maison, L., & Estève, Y. (2023, August). Some voices are too common: Building fair speech recognition systems using the Common Voice dataset. In Interspeech 2023 (ISCA). Dublin, Ireland. https://hal.archives-ouvertes.fr/hal-04163615

Rufiner, H. L., & Milone, D. H. (2004). Sistema de reconocimiento automático del habla. Ciencia, Docencia y Tecnología, XV(28), 151–177. https://www.redalyc.org/articulo.oa?id=14502806

АВТОМАТИЧНЕ РОЗПІЗНАВАННЯ ІСПАНСЬКОЇ МОВИ: СОЦІОЛІНГВІСТИЧНІ ЧИННИКИ ТОЧНОСТІ ТА ТИПОЛОГІЯ ПОМИЛОК

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

Завантаження

Опубліковано

Номер

Розділ

Ліцензія

Як цитувати

Мова

Інформація

Зробити подання

Посилання на підрозділи

Індексування