Аннотация. Статья посвящена современным методикам совершенствования произносительных навыков школьников с применением технологий синтеза речи (Text-to speech). Проведен детальный сравнительный анализ платформ NaturalReader и ElevenLabs с акцентом на их лингводидактический потенциал c позиций развития иноязычного слуха и создания произносительных упражнений с учетом индивидуальных потребностей обучающихся и жанровых особенностей речи. Особое внимание уделяется устранению коммуникативно значимых ошибок, связанных с межъязыковой интерференцией, приводящих к субституции звуков. Показаны возможности технологий синтеза речи для создания индивидуализированных аудиоматериалов, что способствует расширению доступа к прослушиванию звучащей речи, развитию иноязычного слухового слуха, совершенствованию техники теневого чтения. Подчеркивается значимость мгновенной и персонализированной обратной связи, предоставляемой современными цифровыми инструментами, для повышения мотивации обучающихся. Предлагаются практические рекомендации, включающие алгоритмы разработки индивидуализированных комплексов упражнений, способы интеграции систем распознавания и синтеза речи в учебный процесс.
Ключевые слова: произносительные навыки, система распознавания речи, система синтеза речи, иноязычный речевой слух, межъязыковая интерференция, индивидуализация обучения.
Преодоление устойчивых произносительных ошибок у русскоязычных школьников, вызванных фонетическими различиями между русским и английским языками, остается актуальной задачей в обучении иностранным языкам [11], [9]. Традиционные методы коррекции, такие как имитация, часто не учитывают индивидуальные особенности обучающихся и физиологический характер произносительных навыков (когда успешность не зависит от количества повторений), что снижает эффективность формирования произносительных навыков [1], [7], [8].
Проведенный нами анализ УМК «Spotlight» для 5-9 классов показал, что раздел «Pronunciation» систематически представлен только в учебниках для 5 и 6 классов, которые уделяют значительное внимание совершенствованию произносительных навыков посредством специализированных упражнений и аудиоматериалов. Начиная с 7 класса, акцент на произношение существенно снижается: данный аспект интегрируется в другие виды речевой деятельности (Speaking, Vocabulary, Listening), но количество целенаправленных упражнений на коррекцию и развитие произносительных навыков существенно снижено (см. таблицу 1).
Таблица 1. Анализ УМК «Spotlight» на предмет произносительных упражнений
|
|
УМК «Spotlight» 5 класс |
УМК «Spotlight» 6 класс |
УМК «Spotlight» 7 класс |
УМК «Spotlight» 8 класс |
УМК «Spotlight» 9 класс |
|
Раздел «Pronunciation» |
listening for specific information; /eɪ/, /æ/, /b/, /k/, /d/, /g/, /h/, /aɪ/, /i/, /dʒ/, /k/, /l/, /m/, /n/, /p/, /kw/, /r/, /s/, /t/, /v/, /w/, /ks/, /j/, /z/, /iː/, /e/, /əʊ/, /ɒ/, /uː/, /ʌ/; stressed and unstressed words in a sentence и др. |
listening for specific information, |
В разделе English in Use |
В разделе English in Use |
В разделе English in Use |
В то же время технологии синтеза речи (Text-to-speech), представленные современными платформами Naturalreader [12] и ElevenLabs [17], открывают новые возможности для создания индивидуализированных адаптированных учебных материалов, что подтверждается исследованиями в области цифровизации образования и лингводидактики [14].
Современные исследования подчеркивают, что интеграция систем синтеза речи в учебный процесс способствует развитию иноязычного речевого слуха и позволяет создавать разнообразные упражнения на основе любого озвученного текстового материала [15]. Несмотря на широкое применение систем синтеза речи в повседневных технологиях, таких как голосовые ассистенты и навигаторы, их дидактический потенциал в обучении иностранным языкам остается недостаточно изученным и требует дальнейшего внедрения и анализа [13].
Целью исследования является оценка эффективности применения систем синтеза речи (NaturalReader, ElevenLabs) для коррекции произносительных навыков и разработка методических рекомендаций по их интеграции в учебный процесс.
Технологии синтеза речи представляют собой программные решения, преобразующие текстовую информацию в устную речь с помощью искусственного интеллекта [5], [17]. В обучении иностранным языкам они выполняют следующие функции [10], [6]:
- имитация естественной речи (аутентичное произношение, интонация, ритм);
- создание индивидуализированных учебных материалов (настройка пола, жанра, темпа, акцента);
- обеспечение многократного прослушивания без необходимости привлечения носителя языка.
В контексте обучения школьников 5-9 классов системы синтеза речи особенно актуальны, так как они:
- снижают психологический барьер (обучающиеся не стесняются делать ошибки перед «роботом»);
- позволяют адаптировать речь под уровень восприятия (медленный темп, выбор произносительного варианта);
- увеличивают время контакта со звучащей речью в ходе самостоятельной работы;
- увеличивают объем аутентичной звучащей речи в обучении;
- минимизируют влияние межъязыковой интерференции.
В рамках исследования был проведен сравнительный анализ платформ NaturalReader и ElevenLabs по 10 критериям (см. таблицу 2):
- качество синтеза речи (естественность, эмоциональность, адаптивность);
- функциональность для образовательных целей (поддержка ввода текста, многоголосое чтение, регулировка скорости речи, акцентная вариативность);
- технические требования и доступность (оффлайн-режим, бесплатный лимит, интеграция с LMS).
Таблица 2. Сравнительный анализ NaturalReader и ElevenLabs
|
Критерий |
NaturalReader |
ElevenLabs |
|
Качество синтеза речи |
||
|
Естественность |
Хорошая, но заметна роботизированность |
Практически неотличим от человеческого голоса |
|
Эмоциональность |
Ограниченная, стандартные интонации |
Глубокая настройка широкой палитры эмоций (радость, грусть, сарказм и др.) |
|
Адаптивность |
Базовые голоса без тонкой настройки |
Возможность синтезировать речь с нужным тембром, акцентом, возрастом, жанром |
|
Функциональность для образовательных целей |
||
|
Поддержка ввода текстов |
Чтение PDF, DOCX, веб-страниц |
Требует ручного ввода или API-интеграции |
|
Многоголосое чтение |
Есть, но с ограниченными вариантами |
Можно создавать уникальные голоса под конкретные задачи |
|
Регулировка скорости речи |
Да (замедление/ускорение) |
Да + настройка пауз и ударений |
|
Акцентная вариативность |
Базовые варианты (американский, британский) |
Глубокая кастомизация (региональные и национальные произносительные варианты) |
|
Технические требования и доступность |
||
|
Оффлайн-режим |
Доступен в платной версии |
Только онлайн (доступен через VPN) |
|
Бесплатный лимит |
Ограниченное время использования |
~10 000 символов в месяц |
|
Интеграция с LMS |
Частичная (экспорт аудио) |
Через API (требует технических навыков) |
На основе представленного анализа нами были сделаны следующие выводы. ElevenLabs значительно превосходит NaturalReader по естественности и гибкости настроек, что расширяет возможности формирования как слухо-произносительных, так и ритмико-интонационных навыков, а также более точной настройки параметров голоса, что способствует созданию более естественного и выразительного звучания.
NaturalReader удобен для работы с готовыми учебными материалами, его интерфейс интуитивно понятен, что позволяет учителям легко их использовать для озвучивания текстов, что упрощает для обучающихся доступ к озвученным материалам, в то время как ElevenLabs позволяет создавать более творческие и индивидуализированные задания.
NaturalReader проще внедрить в учебный процесс, однако ElevenLabs предлагает более продвинутые функции за счет облачных технологий. Благодаря облачным технологиям этот инструмент предлагает более продвинутые функции, которые могут быть использованы для создания уникального контента, например, интерактивных заданий.
Таким образом, технологии синтеза речи могут существенно улучшить процесс совершенствования произносительных навыков, особенно в отношении преодоления как произносительных, так и интонационных ошибок. К числу наиболее распространенных ошибок русскоязычных обучающихся относятся явления субституции – замены звуков иностранного языка (например, «th», «w» и не-ротический «r») звуками родного языка («т», «в», ротический «р»), а также отсутствие долготы гласных, что может привести к изменению значения слов [2], [4]. Интонационные ошибки проявляются в ритмической организации, словесном и фразовом ударении, выборе интонационной модели, характере тона.
Использование платформ Naturalreader и ElevenLabs позволяет создать и озвучить текст с проблемными звуками для имитации, повторения, самозаписи и сравнения с эталоном. С помощью ElevenLabs можно создать диалог с использованием целого ряда эмоций в различных речевых жанрах, что позволит обучающимся проанализировать динамику интонации в зависимости от эмоционального контекста и типа текста, создать и прослушать собственные диалоги в эталонном звучании до этапа репродукции. Одновременно с этим, исходя из принципов аутентичности и коммуникативной направленности обучения произношению, указанные платформы позволяют создавать образцы звучащей речи на диалектах английского языка, что позволяет адаптировать слух к наиболее распространенным акцентным вариантам и сформировать толерантное отношение к ним [3], [16]. Тем самым технологии синтеза речи помогают создавать условно аутентичные, адаптированные и индивидуализированные учебные материалы, компенсируя недостаток специализированных упражнений в базовых УМК.
В качестве методической рекомендации приведем пример комплекса упражнений, разработанного с помощью систем синтеза речи, с целью совершенствования произношения глагольных окончаний в прошедшем времени (-ed), развитие фонематического слуха и интонационных умений:
- Создание учителем аудиоматериалов с помощью Naturalreader или ElevenLabs на основе текста из базового УМК, содержащего глагольные окончания (-ed) с разной фонетической реализацией ([t], [d], [ɪd]). Выбор произносительного варианта и настроек голоса осуществляется с учетом степени развитости фонематического слуха обучающихсяю.
- (Объяснение) Постановка учебной задачи с фокусом на типичные ошибки, характерные для русскоязычных учащихся (например, замена [t] на [d]).
- (Репродукция) Прослушивание обучающимися синтезированной записи и последовательное повторение вслух (можно в наушниках) с воспроизведением произношения и интонации.
- (Индивидуализация) Создание учителем дополнительных упражнений с включением «рискогенных» слов, выявленных по результатам диагностики произносительных ошибок. Например, для одного ученика – акцент на глаголах с окончанием [ɪd] (wanted, needed), для другого – на [t] (walked, helped). Помимо этого, для слабых учеников можно использовать замедленный темп и упрощенные тексты, а для продвинутых – более быструю речь и сложные интонационные модели.
- (Самоконтроль и самокоррекция) Обучающиеся записывают собственное произношение заданных фраз или текста и сравнивают его с синтезированным эталоном.
- (Контроль) Учитель анализирует аудио записи учеников, выявляя типичные ошибки, и предлагает дополнительные упражнения с использованием синтезированных голосов для закрепления правильного произношения.
Таким образом, гибкость платформ NaturalReader и ElevenLabs позволяет дифференцировать обучение, комбинировать интерактивные и традиционные методы, интегрировать формирование произносительных навыков и навыков чтения и говорения, повысить мотивацию обучающихся и сделать процесс обучения более автономным. Можно сказать, что технологии синтеза речи обладают значительным лингводидактическим потенциалом за счет выхода за рамки прослушивания и повторения. Их особые преимущества заключаются в возможности развития иноязычного речевого слуха на основе создания неограниченного фонетически вариативного материала и преодоления коммуникативно-значимых ошибок, вызванных межъязыковой интерференцией, на основе лингвометодических принципов сознательности, коммуникативности, индивидуализации обучения, постепенного уменьшения опоры и учета контекста.
Список литературы:
- Караваева В.Г., Абрамова Г.С. Формирование фонетической компетенции студентов языкового вуза посредством аудиопрактикума // Межкультурная парадигма лингвообразования: теоретические аспекты и технологические решения: Сборник научных трудов / Институт иностранных языков ГАОУ ВО МГПУ. М.: ООО «Языки Народов Мира», 2022. С. 121-138.
- Караваева В.Г. Перцептивные характеристики интервокального согласного /t/ на материале британского варианта английского языка // Молодёжь XXI века: шаг в будущее: материалы XVIII региональной научно-практической конференции, Благовещенск, 18 мая 2017 года. Благовещенск: Благовещенский государственный педагогический университет, 2017. С. 117-118.
- Караваева В.Г. Андросова С.В. Проблема стандарта на фоне разнообразия диалектов в разных языках мира // Филологические науки. Вопросы теории и практики, 2017. №10-2(76). С. 94-97.
- Клепикова Т.А., Чухарев-Худилайнен Е.В. Технологии синтеза речи в обучении лексике английского языка // Известия СПбГЭУ, 2013. №2(80). (дата обращения: 23.02.2025).
- Николаева Т.А., Заеко О.В. Обзор интернет-ресурсов, применяемых в процессе обучения английскому языку // Научные труды Московского гуманитарного университета, 2020. №2. (дата обращения: 23.02.2025).
- Тарева Е.Г. Цифровая эпоха и педагогические профессии // Вестник МГПУ. Серия: Философские науки, 2018. №3(27). С. 85-90.
- Толмачева Т.А. Альтернативное оценивание уровня иноязычной просодической компетенции // Вестник МГПУ. Серия: Филология. Теория языка. Языковое образование, 2024. №1(53). С. 161-174.
- Толмачева Т.А., Осинцева О.А. Развитие речевого слуха школьников в условиях акцентной вариативности английского языка // Научное мнение, 2025. №6. С. 118-124.
- Ушакова Н.В., Гончаренко О.С. Обзор современных систем синтеза английской речи: качество озвучивания, доступность, возможности применения // Лингвистика, лингводидактика, лингвокультурология: актуальные вопросы и перспективы развития: материалы I Республиканской научно-практической конференции с международным участием, Минск, 23-24 февраля 2017 года. Минск: Белорусский государственный университет, 2017. С. 77-81.
- Фононовации в современном языковом и дидактическом пространстве: опыт, проблемы, перспективы / Л.Г. Викулова, Е.Г. Тарева, К.Н. Бурнакова [и др.]. М.: ООО «Языки Народов Мира», 2024. 324 с.
- Natural Readers [сайт]. (дата обращения: 01.04.2025).
- Polushkina T.A., Tareva E.G. Developing L2 prosodic competence online: Implications of the emergency remote teaching // XLinguae, 2021. Vol. 14, №1.: 38-48.
- Suleimanova O.A. Towards synergetic combination of traditional and innovative digital teaching and research practices // Training, Language and Culture, 2020. Vol. 4, №4.: 39-50.
- Thompson R., Evans K. Integrating TTS and ASR systems for enhanced language learning // Computer Assisted Language Learning, 2025. 38, №1. (дата обращения: 04.06.2025).
- Tolmacheva T.A., Tareva E.G. Accent Bias in ELF Context: A Scoping Literature Review (2002-2022) to Identify Ways to Global Citizenship // Journal of Siberian Federal University. Humanities and Social Sciences, Vol. 16, №12.: 2248-2262.
- Tira N.F. Utilizing Text-to-Speech Technology: Natural Reader in Teaching Pronunciation // JETLEE Journal of English Language Teaching Linguistics and Literature, 2022. №2(2): 70-78. URL: https://www.researchgate.net/publication/362767155_Utilizing_Text-to-Speech_Technology_Natural_Reader_in_Teaching_Pronunciation (дата обращения: 23.02.2025).
- Unitool.ai [сайт]. (дата обращения: 01.04.2025).
Improving learners’ pronunciation skills using Text-to-Speech systems
Kudasheva D.R.,
bachelor of 3 course of the Moscow City University, Moscow
Research supervisor:
Tolmacheva Tatiana Aleksandrovna,
Associate Professor, Department of the English language and linguodidactics, Institute of Foreign Languages, Moscow City University
Abstract. The article addresses modern ways of improving L2 pronunciation skills using speech synthesis technologies (Text-to-speech or TTS). A detailed comparative analysis of the NaturalReader and ElevenLabs platforms is conducted, with an emphasis on their linguodidactic potential in terms of developing L2 perception skills and designing pronunciation exercises that take into account the individual needs of students and the genre features of speech. Special attention is paid to eliminating communicatively significant errors related to interlanguage interference (substitution of sounds). The results show the potential of TTS technologies for creating personalized audio materials, which enhances access to listening to spoken language, promotes the development of L2 perception skills, and improves shadow reading techniques. The importance of instant and personalized feedback provided by modern digital tools in motivating learners is highlighted. Practical recommendations are suggested, including scenarios for the development of individualized sets of activities, ways of integration of speech recognition and synthesis systems into the educational process.
Keywords: рronunciation skills, speech recognition system, Text-to-speech technology, foreign language perception skills, interlanguage interference, individualized pronunciation training.
References:
- Karavaeva V.G., Abramova G.S. Formation of the Phonetic Competence of Students of a Language University through an Audio Workshop // Intercultural Paradigm of Linguistic Education: Theoretical Aspects and Technological Solutions: Collection of Scientific Papers / Institute of Foreign Languages of the Moscow City Pedagogical University. Moscow: LLC «Languages of the Peoples of the World», 2022.: 121-138.
- Karavaeva V.G. Perceptual Characteristics of the Intervocalic Consonant /t/ in the British Variant of the English Language // Youth of the 21st Century: A Step into the Future: Proceedings of the 18th Regional Scientific and Practical Conference, Blagoveshchensk, May 18, 2017. Blagoveshchensk: Blagoveshchensk State Pedagogical University, 2017.: 117-118.
- Karavaeva V.G., Androsova S.V. The Problem of the Standard in the Context of Dialect Diversity in Different Languages of the World // Philological Sciences. Issues of Theory and Practice, №10-2(76).: 94-97.
- Klepikova T.A., Chukharev-Khudilainen E.V. Speech Synthesis Technologies in Teaching English Vocabulary // Izvestiya SPbGEU, 2013. №2(80). (date of the address: 23.02.2025).
- Nikolaeva T.A., Zaeko O.V. Review of Internet Resources Used in Teaching English // Scientific Works of the Moscow University for the Humanities, 2020. №2. (date of the address: 23.02.2025).
- Tareva E.G. The Digital Age and Pedagogical Professions // Bulletin of the Moscow State Pedagogical University. Series: Philosophical Sciences, №3(27).: 85-90.
- Tolmacheva T.A. Alternative Assessment of the Level of Foreign Prosodic Competence // Bulletin of the Moscow State Pedagogical University. Series: Philology. Theory of Language. Language Education, №1(53).: 161-174.
- Tolmacheva T.A., Osintseva O.A. Development of Speech Hearing in Schoolchildren under the Conditions of Accentual Variability of the English Language // Scientific Opinion, 2025. №6.: 118-124.
- Ushakova N.V., Goncharenko O.S. Overview of Modern English Speech Synthesis Systems: Voice Quality, Accessibility, and Application Possibilities // Linguistics, Linguodidactics, and Linguoculturology: Current Issues and Development Prospects: Proceedings of the I Republican Scientific and Practical Conference with International Participation, Minsk, February 23-24, 2017. Minsk: Belarusian State University, 2017.: 77-81.
- Phonovations in the modern linguistic and didactic space: experience, problems, prospects / L.G. Vikulova, E.G. Tareva, K.N. Burnakova [et al.]. Moscow: Languages of the Peoples of the World, 2024. 324 p.
- Natural Readers [website]. (date of the address: 01.04.2025).
- Polushkina T.A., Tareva E.G. Developing L2 prosodic competence online: Implications of the emergency remote teaching // XLinguae, 2021. Vol. 14, №1.: 38-48.
- Suleimanova O.A. Towards synergetic combination of traditional and innovative digital teaching and research practices // Training, Language and Culture, 2020. Vol. 4, №4.: 39-50.
- Thompson R., Evans K. Integrating TTS and ASR systems for enhanced language learning // Computer Assisted Language Learning, 2025. Vol. 38, №1. (date of the address: 04.06.2025).
- Tolmacheva T.A., Tareva E.G. Accent Bias in ELF Context: A Scoping Literature Review (2002-2022) to Identify Ways to Global Citizenship // Journal of Siberian Federal University. Humanities and Social Sciences, Vol. 16, №12.: 2248-2262.
- Tira N.F. Utilizing Text-to-Speech Technology: Natural Reader in Teaching Pronunciation // JETLEE Journal of English Language Teaching Linguistics and Literature, 2022. №2(2): 70-78. URL: https://www.researchgate.net/publication/362767155_Utilizing_Text-to-Speech_Technology_Natural_Reader_in_Teaching_Pronunciation (date of the address: 23.02.2025).
- Unitool.ai [website]. (date of the address: 01.04.2025).