Голосовой движок андроид скачать торрент. Синтезатор речи от Google

Синтезатор речи является основным средством получения информации о содержимом экрана для незрячего пользователя компьютерной техники, а когда отсутствует альтернатива в виде брайлевского дисплея, то и вообще единственным. Ввиду того что поддержка работы с тактильными дисплеями в платформе Android находится лишь на стадии становления, значение text-to-speech для пользователей с нарушениями зрения становится ещё больше.

На момент написания обзора, пользователям Android OS доступно несколько решений синтеза русской речи с различным качеством синтеза и набором недостатков. Предлагаем познакомиться с ними поближе и послушать их звучание.

Поскольку система Android не предоставляет пользователю возможность переключения синтезаторов речи "на лету", часто возникает ситуация, когда одним голосовым движком приходится читать многоязычные тексты, как минимум, с наличием русского и английского. Даже полный переход на английский интерфейс не решает эту проблему, так как для чтения русскоязычных web-страниц или сообщений всё равно придётся переключаться на русский синтезатор речи, проходя весь путь по меню. Кроме того, работа с использованием синтезаторов речи в целом уступает по производительности зрительному восприятию данных с экрана, поэтому многие опытные незрячие пользователи для компенсации этого отставания предпочитают настраивать TTS на максимальную скорость чтения.

Ввиду этого, в данном обзоре мы также уделим значительное внимание не только качеству синтеза речи как таковому, но и таким аспектам как чтение латинского текста и скорость речи, которые являются важными для людей, использующих text-to-speech в программах экранного доступа.

В конце обзора можно найти сводную таблицу оценки существующих решений по трём ключевым параметрам: качеству синтеза, скорости речи и поддержки чтения латинского текста.

Acapela TTS Voices

Компанией Acapela Group под операционную систему Android были портированы несколько десятков её синтезаторов речи, среди которых есть и широко известный русский голос Алёна. В целом по качеству синтеза речи данное коммерческое решение находится на довольно высоком уровне, но продукт не лишён и ряда недостатков, хотя, ради справедливости, стоит отметить, что на момент написания обзора он имеет статус beta.

Во-первых, весь движок крайне нестабилен и склонен к ошибкам на всех поддерживающихся версиях Android, после которых его приходится перезапускать.

Во-вторых, у Алёны наблюдается распространённая ошибка с отсутствием произношения отдельно стоящих русских беззвучных букв, таких как мягкий и твёрдый знаки.

Из положительных особенностей можно выделить то, что это высококачественный голос, который одновременно с этим подходит не только для разовых задач по озвучиванию текста, но и постоянной работы в программах экранного доступа, так как обладает более быстрым откликом чем движки SVOX и не имеет их проблем с чтением отдельно стоящих латинских букв.

Чтение текста, написанного латинскими буквами, осуществляется по правилам английского языка, хотя с произношением, крайне далёким от правильного.

Максимальная скорость Алёны не очень велика, поэтому любители быстрой работы, скорей всего, будут разочарованы.

Чтобы приступить к работе, сначала из Play Market следует скачать общий движок Acapela TTS Voices, в меню которого следует выбрать интересующий голос. Далее в открывшемся меню нажать на кнопку "Buy" и пройти стандартную процедуру покупки, после чего снова открыть меню этого голоса и подгрузить синтезатор, нажав на кнопку "Download".

Captin TTS Engine

Под операционную систему Android Анатолием Камыниным был портирован широко известный в узких кругах синтезатор речи Капитан.

На момент написания обзора продукт находится на стадии публичного тестирования, но уже сейчас некоторыми используется в качестве основного голоса системы.

Из существующих недостатков и специфических особенностей можно отметить следующее.

Во-первых, на некоторых устройствах синтезатор дублирует первый символ текстового отрезка, что создаёт эффект лёгкого заикания в начале фраз.

Из положительных особенностей можно отметить рекордную скорость отклика, превосходящую все существующие аналоги, а также возможность более гибкого конфигурирования, в частности многоступенчетого указания подробности чтения неалфавитных знаков: от редких символов пунктуации до каждого знака пробела.

Чтение латинского текста синтезатором осуществляется строго по правилам латыни, что, при знании соответствующих принципов чтения, позволяет работать практически с любым языком на базе латинской письменности.

В отношении скорости речи Капитан также может претендовать на призовые места, выдавая одни из самых высоких результатов.

Системные требования: Android 2.2 до 3.0.

Системные требования: Android 4.0 и выше.

eSpeak TTS

Одни из основных разработчиков специализированного программного обеспечения под Android, сообщество Eyes-Free Project, портировали под эту операционную систему хорошо известный некоммерческий синтезатор речи eSpeak.

Как слышно из демонстрации, его речь на русском языке обладает рядом существенных недостатков.

Во-первых, в русском тексте синтезатор не читает символы в верхнем регистре, как это произошло в вышеприведённой записи со словами "Здравствуйте, Меня, Моим, Подробности".

Во-вторых, всю поступающую на синтезатор строку кириллических символов eSpeak разбивает на множество небольших фрагментов, состоящих либо из нескольких, либо вообще из одной буквы. Чем и объясняется такая рванная речь. Особенно это заметно при наличии мягкого знака на конце слов, который практически всегда читается отдельно.

В-третьих, общее качество звукового сигнала достаточно низко, что особо заметно при работе в наушниках.

Из положительных качеств можно отметить немного более высокую скорость отклика, по сравнению с аналогами, а также, главным образом, бесплатность.

Чтение данным синтезатором латинского текста осуществляется по правилам английского языка и отличается приемлемым качеством.

В отношении максимальной скорости речи eSpeak, к сожалению, не может похвастаться высокими показателями, поэтому с этой стороны не стоит ждать от него многого.

Системные требования: Android 2.2 и выше.

Milena в пакете Mobile Accessibility RU

Данный синтезатор речи от Vocolazer представляет собой не универсальный голосовой движок, встраивающийся в системную TTS-службу Android, а встроенный компонент русскоязычного программного комплекса экранного доступа Mobile Accessibility.

Синтезатор обладает достаточно высоким качеством звучания, а также приличной скоростью отклика, хотя всестороннее тестирование данного аспекта осложняется встроенностью движка в конкретное приложение.

В целом это очень качественное решение по синтезу речи, которое известно по многим другим платформам, но и оно имеет некоторые недостатки.

Во-первых, из-за встроенности Милены в продукт Code Factory, пользователь имеет возможность работать с ним либо внутри среды Mobile Accessibility, либо в системе Android, но исключительно при использовании программы экранного доступа из состава MA.

Во-вторых, сам голос Милены характеризуется своеобразным произношением некоторых букв, например, буквы "ч", при некоторых конфигураций соседних литер, что в частности наблюдается в таком частоупотребимом при озвучивании интерфейсов слове как "отмечено".

Из положительных аспектов также можно отметить тот факт, что за счёт встроенности синтезатора в пакет Mobile Accessibility, пользователю доступны более тонкие настройки, нежели те, которые предоставляются голосовой системной службой Android, например, регулировка чтения знаков пунктуации или фонетическое чтение символов.

Латинский текст Милена читает по правилам английского языка, но правильность произношения зачастую находится на довольно низком уровне, хотя общие правила примерно соблюдаются.

В отношение же скорости речи это один из самых быстрых синтезаторов.

SVOX SVOX Classic TTS

В рамках ещё одного решения предлагается два коммерческих русскоязычных голоса от SVOX.

Из различий можно лишь отметить только более богатый низкими частотами голос Юрия, а также, на наш взгляд, его более правильные интонации. Правда, здесь же стоит и упомянуть слабо уловимые дефекты речи Юрия при произнесении шипящих согласных, что, например, можно заметить в отношении буквы "ч" в слове "точка".

Относительно же общей характеристики, то, как слышно из демонстрационных файлов, здесь качество синтеза достаточно высоко и читаемая информация воспринимается без особого труда. Тем не менее, и эти голоса имеют ряд недостатков.

Во-первых, фрагменты текста, являющиеся совокупностью букв и небуквенных знаков, синтезатор зачастую произносит по символам, а не слитно, как это произошло с частью ссылки "www.сайт". Также это проявляется на E-mail адресах и просто на тексте, где не чётко соблюдаются правила постановки пробелов, например, в SMS.

Во-вторых, при вводе текста, буквы I, V, X, L, C, D и M синтезатор читает как римские числа, что для незрячего пользователя, использующего TTS не только для чтения книг, но и для абсолютно всей работы, крайне не удобно. Причём чтение римских чисел также страдает от ошибок, например, MI считается числом 101, а не 1001.

В-четвёртых, синтезатор в целом обладает меньшей скоростью реакции нежели многие аналоги, хотя и с крайне незначительной разницей.

К сожалению, в отношении чтения латинского текста голоса SVOX не способны похвастаться хорошей разборчивостью.

Как слышно из демонстрационной записи, SVOX в целом читает латиницу по правилам чтения латыни, но местами пытается произносить её на английский манер, например, слово "voice" читается как "войке", а не "войце".

В отношении же максимальной скорости эти голоса также не характеризуются высокими показателями.

Системные требования: наличие SVOX Classic Text To Speech Engine и Android 2.1 и выше.

TTS Online

Данный синтезатор, разработанный Сергеем Нечипоренко и распространяемый бесплатно, представляет собой облачный сервис, использующий в своей работе Google TTS API. В сущности программа не занимается синтезированием речи, она лишь встраиваясь в голосовую службу Android, отправляет на сервер Google текстовую информацию и воспроизводит возвращаемый аудиосигнал.

Это обуславливает тот факт, что для работы синтезатора необходимо активное Интернет-подключение с достаточно высокой скоростью передачи данных.

Как слышно из демонстрационной аудиозаписи, Google TTS использует уже знакомый голос Катя от SVOX, поэтому для него характерны все те же особенности, которые были освещены в обзоре SVOX Classic TTS.

Отдельно только стоит обратить внимание, что TTS Online не поддерживает настройку скорости речи, поэтому пользователю придётся смириться с его неторопливым темпом.

Кроме того, на момент написания обзора, TTS Online не поддерживает работу в среде Android 4.0.x Ice Cream Sandwich, и изменение этого, по заявлению разработчика, в обозримом будущем не планируется.

Системные требования: Android от 2.2 до 3.x.

Резюме

Ниже приведена сводная таблица существующих русскоязычных синтезаторов речи под Android OS, в которой отражены такие характеристики как качество голоса, применяемые правила чтения латинского текста и максимальная скорость речи.


SVOX Classic Text To Speech Engine голосовой движок для платформы является программой, позволяющей воспроизводить любой текстовый документ в виде речевого потока. На каждом устройстве, работающем под управлением ОС Android имеется встроенная программа позволяющая, преобразовывать текст в человеческую речь. Однако недостатком этой программы является то, что она поддерживает только иностранные языки. Особенностью же SVOX Classic Text To Speech Engine как раз является то, что данная программа умеет "говорить" по-русски.


Использование SVOX Classic Text открывает массу новых возможностей. Благодаря ему вы сможете озвучивать различные программы, воспроизводить электронные книги и важные сообщения. SVOX Classic Text поддерживает работу с более чем 25-ю языками. Благодаря такому набору данная программа является уникальной в своём роде. Здесь также имеется возможность выбора голосового сопровождения - всего их здесь сорок вариантов. Для воспроизведения текста на русском языке необходимо скачать специальное дополнение к программе, которое легко найти в Интернете. Для дальнейшей работы достаточно установить программу вместе с этим дополнением и всё - ваш смартфон говорит по-русски!


Настройки SVOX Classic Text при воспроизведении текста позволяют установить использование этой программы по умолчанию. Для этого достаточно зайти в настройки приложения и перейти в раздел «голосовой ввод - вывод». Там нужно отметить галочкой пункт «система, устанавливаемая по умолчанию». После этого пользователь также может выбрать и голос, используемый по умолчанию.

На нашем сайте вы можете скачать русские голосовые движки на ваш Андроид смартфон. В комплекте сама программа, уже активированная ключом и не требует регистрации, а так же 40 мужских и женских голосов на 25 языках, естественно включая русский. Теперь ваш умный телефон по настоящему становится таковым, дайте ему любой текст или команду и он будет читать любой массив текста за вас, на нужном вам языке.

Если Ваш родной язык не английский и Вы не пишете приложения только для iPhone, то Вам придется достаточно трудно, если Вы захотите найти подходящий инструментарий для разработки т.н. мобильных «voice-enabled» приложений.

В данном обзоре приведена классификация и описаны самые достойные из рода mobile TTS engine.

Я занимаюсь исследованиями в области проектирования интерфейсов мобильных устройств для людей с ограниченными возможностями зрения. Для реализации одного из моих проектов мне потребовался движок генерации голоса с мультиязыковой поддержкой (как минимум два языка – английский и русский). Это и послужило причиной поиска синтезатора речи.

Для удобства разделим движки TTS на три класса:

  • коммерческие;
  • свободные (решения лицензированные по GPL, LGPL и более «мягким» лицензиям типа BSD License или wxWindows Licence, которые допускают коммерческую разработку продуктов);
  • встроенные (средства, предоставляемые самой операционной системой).

Коммерческие движки

SVOX Mobile TTS

Цена: n/a
Языки: 26, включая русский
высокое
Мобильные ОС: Android, Symbian, Windows CE/Windows Mobile, BREW

Компания SVOX имеет наиболее «вкусный» с технической точки зрения продукт - SVOX Mobile TTS . Однако, поскольку компания работает в основном в B2B сегменте, на мои два письма с запросом цены они так и не ответили.

Цена, указанная в шапке, относится к таким операционным системам как Windows Mobile и Symbian, однако бизнес-модель Acapela разнится в зависимости от выбранной ОС. К примеру, наиболее сильно они продвигают направление iOS, для которого сделан отдельный сайт . Там можно зарегистрироваться и бесплатно получить evaluation версию их движка. Цена голого SDK для бывшей iPhone OS составляет 250€. Так же с каждого проданного Вами в App Store приложения снимаются немалые проценты.

Отмечу, что Acapela предоставляет «облачный» синтез речи , а так-же портирование SDK под любую платформу.

Свободные движки

Flite
Цена: нет
Языки: английский плюс возможность компиляции языков FestVox
Субъективная оценка качества звучания: низкое
Мобильные ОС: Android, Windows CE/Windows Mobile, iOS, PalmOS
Возможность разработки коммерческих продуктов: есть (CMU licence)

В мире настольных систем хорошо известен синтезатор речи Festival. Он имеет порт под названием Flite для мобильных устройств и встраиваемых систем, который распространяется под их собственной X11-like лицензией, позволяющей свободно распространять данное ПО кому угодно, а так же строить на его основе как коммерческие, так и свободные приложения. Существуют порты для Windows CE/Windows Mobile , PalmOS, Android и .

Инструкция для компиляции движка под WM включена в дистрибутив, однако на этой платформе eSpeak имеет одно существенное ограничение – генерация голоса возможна только в WAV файл. Собранный TTS engine для Windows Mobile можно получить .

ESpeak портирован на Android . Самый простой способ его попробовать - это установить из Android Market’а приложение TTS Service Extended, которое позволяет переключаться между встроенным движком и eSpeak. Данный TTS движок распространяется на условиях GNU GPL.

Встроенные решения

Встроенные решения присутствуют только в Symbian и Android. По какой-то неизвестной причине Microsoft лишила свою мобильную ОС соответствующего программного интерфейса (MS SAPI).
Symbian

Цена: нет
Языки: английский
Субъективная оценка качества звучания: крайне низкое
Возможность разработки коммерческих продуктов: есть

Встроенный TTS от Symbian Foundation скрывается в классе CMdaAudioPlayerUtility. Хотя в его ничего об этом не сказано, он все же позволяет синтезировать речь. К сожалению, русский язык не поддерживается. Качество генерации английской речи очень низкое. Без подготовки довольно трудно понять, что именно он произнес.

Дополнительные языковые пакеты можно загрузить , однако список поддерживаемых телефонов крайне мал. Установка пакетов для русского языка на устройство под управлением Symbain OS S60 5th не дала ожидаемых результатов, встроенный TTS так и не заговорил по-русски.

Отмечу, что имеется достаточно удобное расширение API под названием NSS TTS Utility API, описание которого можно найти

Языковые движки и синтезаторы (TTS text-to-speech) для русского языка никогда не были чем-то совершенным. В отличие от английских, чье развитие шло постоянно и неуклонно, лучшим представителем отечественных синтезаторов уже более десяти лет был мужской голос Николай от компании Acapela. Конкуренцию ему в последние годы составляли два вполне приличных женских варианта - Алена (Acapela) и Катерина, позднее - Катерина II (ScanSoft RealSpeak).

Для повседневного использования требовались определенные усилия, а уж для мобильных платформ, в первую очередь Android, они подходили лишь в связке с персональным компьютером, заставляя перегонять текст в звук, чтобы позднее воспроизводить стандартным Mp3 плеером на конечном устройстве.

Некоторую надежду на прогресс, как это часто бывает, дарила корпорация добра Google, см. наш материал:
. До недавнего времени максимум возможностей, предоставляемых поисковым гигантом, сводился к онлайн работе с их синтезатором. Результат, откровенно говоря, не был чем-то революционным. С примером работы Google API TTS вы можете ознакомиться на с общей информацией о Клубе.

Существовало и еще несколько решений, заточенных непосредственно под использование со смартфонами:

  • Поставляемый по умолчанию Pico TTS - без русского языка
  • IVONA Text-to-Speech - к сожалению, поддержка русского пока не реализована, хотя официальный голос Татьяна представлен на сайте разработчика
  • SVOX Classic Text To Speech Engine - единственная рабочая модель. Установка софта - бесплатная, пробный период на ознакомление. Конечная цена ~ 3USD
Как видите, реально работает только решение SVOX . При всей "реальности", работает система из рук вон плохо. То есть основное свое предназначение - читать по-русски, формально она выполняет, но читает плохо.

И вот, в конце мая 2014 года в Google Play появляется их новый абсолютно бесплатный Синтезатор речи Google . Этот продукт легко затыкает за пояс прошлые решения с использованием русских систем TTS, более того, по моему скромному мнению, этот женский голос лучше доступных решений для персональных компьютеров.

Ниже приведен небольшой демофрагмент полученный со смартфона с установленным синтезатором речи Google - русский женский голос (пока единственный из доступных)

Запись получена через стандартную программу для fb2 FBReader с подключенным модулем чтения Даже если вы не воспринимаете компьютерную речь в контексте озвучивания книг, это решение позволит вам апгрейдить своего мобильного друга. Гугль навигация начнет читать вам названия улиц, специальные приложения смогут озвучивать текст СМС и номера при входящих звонках.

Кроме того, и это весьма полезно для слабовидящих или незрячих пользователей, теперь можно полноценно использовать TalkBack - аналог знакомого многим по работе на персоналках скрин-ридера Jaws. Эта система реализует потенциал Android для голосового оповещения о всех событиях на телефоне, позволяющего управлять им, не видя экрана.

    Недостатки в работе с синтезатором
  • Существенный минус для любителя аудиокниг - повышенное энергопотребление, за пару часов озвучивания вы потеряете до половины заряда аккумулятора
  • Неприятность, зафиксированная лишь во время проигрывания через динамик телефона: легкий fade in - затухание уровня звука в начале предложения. Через проводную гарнитуру, внешнее устройство и bluetooth этот эффект отсутствует
  • Нет поддержки пользовательских ударений и словарей

Особенных чудес ждать не приходится - это всего лишь компьютер, впрочем, некоторая холодность во время чтения кому-то может показаться приятным отдохновением после избытка театральности в работе отдельных исполнителей.

Установка синтезатора предельно проста.
Заходим на страницу продукта в магазине . Google Play, как обычно, известит вас о совместимости с вашим устройством - требуется Android 4.0.3 и выше, затем произойдет загрузка и установка. После чего нужно скачать "голос":
Настройки -> Специальные возможности -> Вывод функции текста в речь -> Синтезатор речи Google (не пугайтесь грозного предупреждения, ничего нового о вас производитель через эту программу не узнает, ему и так все доподлинно известно) -> скачать. И для спокойствия - перезагрузить.

    UPD.: октябрь 2016
Для андроид 4,2 (лучше 4,4) и выше к базовому женскому голосу добавлено 6 новых - три мужских и три женских: