Синтезатор речи женский голос. Синтез речи. "Синтезатор речи Google": как пользоваться программой

29.08.2018 Андроид инструкции

В широком смысле - восстановление формы речевого сигнала по его параметрам; в узком смысле - формирование речевого сигнала по печатному тексту.

Синтез речи может потребоваться во всех случаях, когда получателем информации является человек. По тексту или коду сообщения может быть использован в информационно-справочных системах, для помощи слепым и немым, для управления человеком со стороны автомата.

Частота речи, частота и амплитудная модуляция

Показатели речи выражаются как реальные значения. Каждый синтезатор речи определяет собственный диапазон скоростей речи, который может применяться к тем голосам, которые он использует. Шаг - это комбинация средней частоты разговора и ее вариаций вокруг этого среднего. Когда вы слушаете голос, говорящий, вы знаете об изменениях в подаче, которые создают своего рода мелодию. Часто вы больше осознаете это музыкальное качество, когда слушаете разговоры на языке, на котором вы не говорите, потому что вы не сосредоточены на семантическом значении того, что вы слышите.

Для выдачи информации о технологических процессах: в военной и авиакосмической технике, в робототехнике, в акустическом диалоге человека с компьютером.

Как звуковой эффект нередко используется в создании электронной музыки.

Все способы синтеза речи можно подразделить на три группы:

параметрический синтез; конкатенативный, или компиляционный (компилятивный) синтез; синтез по правилам.

Поэтому, чтобы произвести человекоподобную речь, синтезатор должен попытаться воспроизвести эти вариации тона в своих голосах. Речевой шаг речевого канала представляет собой средний шаг голоса, из которого фактические тона речи могут варьироваться с восходящими и падающими мелодиями. Вы можете думать о речевой частоте, как это примерно соответствует ключу, в котором воспроизводится песня. Каждое изменение единицы в единицах речи на тысячу единиц соответствует музыкальному полушагу. В этой шкале изменение 12 единиц соответствует удвоению частоты, а изменение -12 единиц соответствует половине частоты.

Параметрический синтез речи является конечной операцией в вокодерных системах, где речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров. Параметрический синтез целесообразно применять в тех случаях, когда набор сообщений ограничен и изменяется не слишком часто. Достоинством такого способа является возможность записать речь для любого языка и любого диктора. Качество параметрического синтеза может быть очень высоким (в зависимости от степени сжатия информации в параметрическом представлении). Однако параметрический синтез не может применяться для произвольных, заранее не заданных сообщений.

Методы синтеза речи

Частота - это точное указание количества герц звуковой волны в любой момент. Типичные частоты голоса могут варьироваться от около 75 Гц для низкого голоса мужчин до 300 Гц для высокого голоса ребенка. Эти частоты соответствуют приблизительным значениям тона речи в диапазонах от 000 до 000 и от 000 до 000 соответственно. Если вам нужно преобразовать между речевыми каналами и герц, обратите внимание, что шаг речи 000 соответствует 625 Гц.

Чтобы имитировать изменчивость частоты в человеческой речи, структура синтеза речи определяет речевой атрибут, называемый модуляции основного тона. Модификация основного тона речевого канала является максимальной величиной, на которой фактическая частота генерируемой речи может отклоняться от тона речи.

Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря исходных элементов синтеза. Размер элементов синтеза не меньше слова. Очевидно, что содержание синтезируемых сообщений фиксируется объёмом словаря. Как правило, число единиц словаря не превышает нескольких сотен слов. Основная проблема в компилятивном синтезе - объёмы памяти для хранения словаря. В этой связи используются разнообразные методы сжатия/кодирования речевого сигнала. Компилятивный синтез имеет широкое практическое применение. За рубежом разнообразные устройства (от военных самолётов до бытовых устройств) оснащаются системами речевого ответа. В нашей стране системы речевого ответа до недавнего времени использовались в основном в области военной техники, сейчас они находят всё большее применение в повседневной жизни, например, в справочных службах операторов сотовой связи при получении информации о состоянии счета абонента.

Питающая модуляция выражается как реальное значение в диапазоне от 000 до 100, значение модуляции основного тона 000 соответствует монотону, в котором вся речь генерируется на частоте, соответствующей тональности речи. Речь, генерируемая при этой модуляции основного тона, звучит неестественно роботизированной.

Системы синтеза речи

Объем речи речевого канала представляет собой среднюю амплитуду, при которой канал генерирует речь. Единицы объема лежат на линейной шкале с амплитудой или напряжением; поэтому удвоение значения объема речи соответствует удвоению воспринимаемой громкости. Подобно тому, как синтезатор обычно не генерирует речь на постоянной частоте, он не генерирует речь с постоянной амплитудой. Даже когда скорость речи высока, кратковременные проявления молчания разрывают постоянный поток речи. Объем речи, как речевой сигнал, является показателем среднего значения.

Полный синтез речи по правилам (или синтез по печатному тексту) обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестному тексту. В этом случае параметры, полученные при анализе речевого сигнала, сохраняются в памяти так же, как и правила соединения звуков в слова и фразы. Синтез реализуется путём моделирования речевого тракта, применения аналоговой или цифровой техники. Причём в процессе синтезирования значения параметров и правила соединения фонем вводят последовательно через определённый временной интервал, например 5-10 мс. Метод синтеза речи по печатному тексту (синтез по правилам) базируется на запрограммированном знании акустических и лингвистических ограничений и не использует непосредственно элементов человеческой речи. В системах, основанных на этом способе синтеза, выделяется два подхода. Первый подход направлен на построение модели речепроизводящей системы человека, он известен под названием артикуляторного синтеза. Второй подход - формантный синтез по правилам. Разборчивость и натуральность таких синтезаторов может быть доведена до величин, сравнимых с характеристиками естественной речи.

Самый сложный речевой атрибут - просодия. Атрибут речи просодии описывает ритмические, модульные и акцентирующие шаблоны речи, такие как слово и слоговое напряжение и шаг в конце предложения. Хотя для вашего приложения нет простого механизма для определения того, какие ритмические шаблоны автоматически использует речевой синтезатор для речи, вы можете немного контролировать этот аспект голосового вывода, используя команду встроенной речи.

Возможно, больше, чем с другими речевыми атрибутами, вы можете потратить много времени на тонкую настройку просодии речи, которую генерирует ваше приложение. Если у вас ограниченный набор строк, которые требуется вашему приложению, однако, стоит приложить усилия для настройки просодии для достижения вашей цели.

Синтез речи по правилам с использованием предварительно запомненных отрезков естественного языка - это разновидность синтеза речи по правилам, которая получила распространение в связи с появлением возможностей манипулирования речевым сигналом в оцифрованной форме. В зависимости от размера исходных элементов синтеза выделяются следующие виды синтеза:

Возможности для настройки синтезированной речи

Среда синтеза речи поддерживает множество методов настройки речи, создаваемой вашим приложением, от простого до сложного. В этом разделе описываются различные варианты, доступные вам. Одна из первых вещей, которые пользователи замечают о речи, которую производит ваше приложение, - это голос, который говорит об этом. Следовательно, использование определенного голоса - это простой способ настройки голосового вывода вашего приложения.

Если сам голос не является важной особенностью вашего приложения, вы можете просто использовать голос системы по умолчанию. Однако вы можете назначить определенный голос или дать своим пользователям возможность выбирать голос. Например, если вы разрабатываете игру, которая отображает более одного отдельного персонажа, вы должны уметь давать каждому персонажу свой собственный голос. Если, с другой стороны, вы разрабатываете интерактивное приложение для детей, вы можете захотеть дать им выбор развлекательных голосов, из которых можно выбрать.

микросегментный (микроволновый);

аллофонический;

дифонный;

полуслоговой;

слоговой;

синтез из единиц произвольного размера.

Обычно в качестве таких элементов используются полуслоги - сегменты, содержащие половину согласного и половину примыкающего к нему гласного. При этом можно синтезировать речь по заранее не заданному тексту, но трудно управлять интонационными характеристиками. Качество такого синтеза не соответствует качеству естественной речи, поскольку на границах сшивки дифонов часто возникают искажения. Компиляция речи из заранее записанных словоформ также не решает проблемы высококачественного синтеза произвольных сообщений, поскольку акустические и просодические (длительность и интонация) характеристики слов изменяются в зависимости от типа фразы и места слова во фразе. Это положение не меняется даже при использовании больших объёмов памяти для хранения словоформ.

Назначение определенного голоса или набора голосов требует, чтобы вы узнали, какие голоса доступны в системе пользователя, изучите отдельные голосовые описания, чтобы определить, какие из них вы хотите, и сообщите синтезатору, какой голос использовать.

Вы можете осуществлять контроль над выпуском голосового вывода, используя функции синтеза речи для остановки, паузы и продолжения речи. Хотя вы можете использовать функции синтеза речи для настройки речевых атрибутов, таких как громкость и высоту тона, вы не можете использовать их для успешной настройки произношения слов. Для тонкой настройки произношения или просодии отдельных слов и фраз вам необходимо использовать встроенные речевые команды.

У синтеза речи долгая история, обросшая легендами. Ещё в Х веке Герберту Аврилакскому приписывали владение искусством изготовления терафима - говорящей мёртвой головы. Сделанная из бронзы, эта голова словами «да» и «нет» отвечала на вопросы любого к ней обращавшегося. В середине XIII века монах-доминиканец Альберт фон Больштедт и английский философ и естествоиспытатель Роджер Бэкон также пытались создавать первые образцы «говорящих голов».

Контроль качества речи с помощью встроенных команд речи

Встроенная речевая команда позволяет вам контролировать качество голосового вывода с большой точностью, потому что вы связываете его с отдельным словом или фразой, которую вы хотите затронуть. Встроенные команды могут использоваться в буферах текстовых и фонематических представлений речи. Фактически, вы можете комбинировать фонематические представления конкретных слов или фраз с текстовыми представлениями в одной строке или буфере.

Каталог синтезаторов речи

Встроенные команды позволяют точно корректировать произношение слов, то, как слова подчеркиваются в предложении, и общая каденция речи. Вы можете использовать встроенные команды, чтобы облегчить понимание речи и более человеческое звучание или подражать определенным произношениям и интонациям. Вашему приложению нужно только вызвать стандартные функции или методы, которые начнут процесс генерации речи, например.

В конце XVIII века датский учёный Христиан Кратценштейн, действительный член Российской Академии Наук, создал модель речевого тракта человека, способную произносить пять долгих гласных звуков (а, э, и, о, у). Модель представляла собой систему акустических резонаторов различной формы, издававших гласные звуки при помощи вибрирующих язычков, возбуждаемых воздушным потоком. В 1778 австрийский учёный Вольфганг фон Кампелен дополнил модель Кратценштейна моделями языка и губ и представил акустическо-механическую говорящую машину, способную воспроизводить определённые звуки и их комбинации. Шипящие и свистящие выдувались с помощью специального меха с ручным управлением. В 1837 учёный Чарльз Уитстоун (Charles Wheatstone) представил улучшенный вариант машины, способный воспроизводить гласные и большинство согласных звуков. А в 1846 году Джезеф Фабер (Joseph Faber) продемонстрировал свой говорящий орга́н Euphonia, в котором была реализована попытка синтезирования не только речи, но и пения.

Хотя встроенные команды наиболее полезны для управления создаваемой вами речью, вы также можете добавлять встроенные команды для управления речью, генерируемой текстовыми пользователями. Например, приложение обработки текстов может вставлять команды, которые говорят синтезатору, чтобы подчеркнуть произношение слов, выделенных пользователем или подчеркнутых. В разделе Использование встроенных речевых команд для точной настройки выделенного вывода. Эта документация архивируется и не поддерживается.

Зарегистрировать уведомления о событиях

Вы можете предоставить пользовательские словарные произношения для механизмов синтеза речи, чтобы использовать их, создавая собственный лексикон приложения. Синтезатор речи принимает текст как входной сигнал и создает аудиопоток в качестве выхода. Синтез речи также упоминается как текст в речь.

В конце XIX века знаменитый учёный Александр Белл создал собственную «говорящую» механическую модель, очень схожую по конструкции с машиной Уитстоуна. С наступлением XX века началась эра электрических машин, и учёные получили возможность использовать генераторы звуковых волн и на их базе строить алгоритмические модели.

В 1930-х годах работник Bell Labs Хомер Дадли (Homer Dudley), работая над проблемой поиска путей для снижения пропускной способности необходимой в телефонии, чтобы увеличить её передающую способность, разрабатывает VOCODER (сокращенно от англ. voice - голос, англ. coder - кодировщик) - управляемый с помощью клавиатуры электронный анализатор и синтезатор речи. Идея Дадли заключалась в том, чтобы проанализировать голосовой сигнал, разобрать его на части и пересинтезировать в менее требовательный к пропускной способности линии. Усовершенствованный вариант вокодера Дадли, VODER, был представлен на Нью-Йоркской Всемирной выставке 1939 года.

Синтезатор должен выполнять существенный анализ и обработку, чтобы точно преобразовать строку символов в звуковой поток, который звучит так же, как слова будут произноситься. Самый простой способ представить, как это работает, - это изображение переднего и заднего конца двухсекционной системы.

Передняя часть специализируется на анализе текста с использованием правил естественного языка. Он анализирует строку символов, чтобы определить, где находятся слова. Этот передний конец также определяет грамматические детали, такие как функции и части речи. Например, какие слова являются правильными существительными, числами и т.д. где предложения начинаются и заканчиваются; является ли фраза вопросом или заявлением; и является ли утверждение прошедшим, настоящим или будущим.

Первые синтезаторы речи звучали довольно неестественно, и часто едва можно было разобрать производимые ими фразы. Однако качество синтезированной речи постоянно улучшалось, и речь, генерируемую современными системами синтеза речи, порой не отличить от реальной человеческой речи. Но несмотря на успехи электронных синтезаторов речи, исследования в области создания механических синтезаторов речи по-прежнему ведутся, например, для использования в роботах-гуманоидах.

Все эти элементы имеют решающее значение для выбора подходящих произношений и интонаций для слов, фраз и предложений. Подумайте, что на английском языке вопрос обычно заканчивается повышающимся шагом или что слово «читать» произносится очень по-разному в зависимости от его времени. Ясно, что понимание того, как используется слово или фраза, является критическим аспектом интерпретации текста в звуке. Для дальнейшего усложнения вопросов правила для каждого языка несколько отличаются. Итак, как вы можете себе представить, передняя часть должна провести очень сложный анализ.

Первые системы синтеза речи на базе вычислительной техники стали появляться в конце 1950-х годов, а первый синтезатор «текст-в-речь» был создан в 1968 году.

ПО и ОС с поддержкой синтеза речи:

TTS компонента Microsoft Agent, в Microsoft Windows

ОС Android с версии 1.6 стал включать поддержку синтеза речи

Система синтеза речи Festival (использует компилятивные методы синтеза)

Синтезатор языка - текстовые модули

У задней части есть совсем другая задача. Это делает анализ, выполненный передним концом, и посредством некоторого нетривиального анализа генерирует соответствующие звуки для входного текста. Старые синтезаторы генерируют отдельные звуки алгоритмически, что приводит к очень роботизированному звучанию. Эффективность задней части зависит от того, насколько хорошо она подходит для выбора соответствующих сегментов звука для любого заданного входа и плавного сращивания их вместе. Альтернативные голоса с текстом в речь.

AT&T Natural Voices

pVoice (проект языка Perl)

ESpeak (использует формантный синтез)

Gnuspeech - система артикулятивного синтеза

RSS To Speech - приложение и гаджет для Windows, использующий TTS для чтения RSS-каналов

Гаджет Новости Вслух для Google Desktop

Read Words Eng 4 версия Декабрь 2010 г. доступна на tinyurl.com/7uedfb6

17. Физическое моделирование. – это очень сложный вид синтеза, т.к. для имитации даже самых простых инструментов требуются огромные вычислительные методы, где за основу берётся моделирование физических процессов инструмента. Т.е. например при иммитации скрипки будут моделироваться характеристики инструмента определяющие его реальное звучание, такие как: парода дерева, составл лака, геометрические размеры, материал струн, смычка и т.д. Естественно, перевести их в алгоритмы полностью не выйдет ни за что, хотя имеет место приближение (например, алгоритм Карплюса-Стронга для имитации колебания струны), но по идее - такой метод должен давать наиболее точную имитацию акустического инструмента. Весь вопрос - в процессорных мощностях.

Если вам не нравится звук голосов по умолчанию для текста на речь на вашем компьютере или у вас нет установленного, вы можете установить голоса сторонних производителей. Вы руководствуетесь несколькими шагами, через которые ваш компьютер научится распознавать ваш голос и акцент.

Вы всегда должны тщательно обучать языковой модуль, чтобы убедиться, что он правильно распознает слова и фразы. Однако, как правило, выбираются только два голоса, один мужчина и одна женщина. Возможность указать несколько шагов для фонемы позволяет даже петь тексты. Однако качество выходного сигнала зависит от качества соответствующих дифоновых баз данных и препроцессоров.

Впервые результат физического моделирования нам показал фирма Yamaha, в ряде синтезаторов VL-1 и VL-7

Современные приложения для синтеза речи значительно отличаются по качеству работы от своих первых аналогов десятилетней давности. Яркий пример тому — программа Балаболка . Данное приложение бесплатное, без каких-либо условий и ограничений. Обладает настолько большими возможностями, что создатели предпочли интегрировать в программу полноценный файл помощи, с подробным описанием всех функций.

Коммерческая версия должна быть получена непосредственно от автора программы. Распределение содержит некоторые впечатляющие примеры этих возможностей. Несмотря на размер этой базы данных, произношение довольно ошибочно. Например, ни «онлайн», ни «браузер» не произносятся правильно. Ошибки становятся еще более удивительными, поскольку фестиваль достигает гораздо лучших результатов, хотя в базе данных нет записей этих слов.

Желателен один из способов переключения между языками. Однако сотрудничество далеко не всегда стабильно. Однако, на мой взгляд, разница в качестве не очень велика. Ожидается, что исправленная версия будет доступна до публикации этой книги. Однако желательно более подробное сообщение об ошибке в случае неудачного теста. Это в основном связано с тем, что некоторые алгоритмы написаны на Схеме и обрабатываются интерпретатором.

Инсталляция и настройка программы балаболка.

Программу проще всего получить непосредственно с сайта разработчика. Там же можно скачать и дополнительное необходимое ПО. Процесс инсталляции незамысловат — приложение копируется в выбранный директорий, системные папки при этом не используются. Интерфейс поддерживает множество языков, в том числе и русский. А вот произношение текста пока будет только на английском. Для использования русского (или любого другого, даже украинского) языка необходимо дополнительно установить компьютерный голос. В сети доступно множество как бесплатных, так и коммерческих голосов. Устанавливаются они довольно просто и быстро.

Вполне может быть, что вам потребуется так же инсталлировать пакет Microsoft Speech Api 4.0

Приложение готово к работе сразу же после запуска. Если установлены бесплатные русские голоса, необходимо выбрать один из них на вкладке SAPI4. Теперь достаточно в окне набрать или вставить текст, и нажать клавишу F5 - начнется чтение вслух текстового фрагмента. Курсор при этом должен находиться в начале текста.

Возможности программы балаболка

Но озвучивание текста — не единственное предназначение программы. Например, с ее помощью можно создавать аудио книги. Произношение любого текста в программе Балаболка можно записать в звуковой файл. Приложение поддерживает следующие форматы: .wav, .mp3, .ogg, .wma, .mp4, .m4a, .m4b, .awb.

Таким образом, нужный вам текст легко преобразовывается в аудиокнигу.

Кстати, программа позволяет автоматически разбивать один большой файл аудиокниги на несколько небольших, в соответствии с выбранными настройками

Настройки сохранения файлов аудиокниг — далеко не единичная опция, доступная пользователю. Кроме этого, можно установить громкость, тембр голоса, скорость произношения. После установки дополнительных (бесплатных) модулей, возможна проверка орфографии; так же пользователь сам может корректировать произношение путем создания собственных «словарей».