Введение или о синтезе речи просто и понятно

Дата публикации:2005
Поделиться в Twitter Поделиться в F******k Поделиться в VKontakte Поделиться в Telegram Поделиться в Mastodon

Любая программа экранного доступа, а также любая программа, предполагающая взаимодействие с незрячим или слабовидящим пользователем, должна поддерживать невизуальные средства вывода информации. На сегодняшний день такими средствами являются либо речь, либо тактильное воздействие. Остановимся подробнее на речевом выводе информации.

Рассмотрим организацию этого процесса в программах экранного доступа Jaws for Windows, NVDA, Virgo и других . Какова для незрячего пользователя ценность усилий такой программы по отслеживанию событий, происходящих на экране компьютерного монитора, если она не сможет проинформировать о них? Надо признаться, что никакая, ибо такая программа, лишённая средств общения с пользователем, совершенно бесполезна. Синтезаторы речи как раз позволяют «найти общий язык» программе и пользователю.

В программе Jaws синтезаторы речи оформлены в виде отдельных модулей (встроенный синтезатор речи), либо в виде драйверов для взаимодействия с внешними синтезаторами речи. И те, и другие расположены в папке Jaws в виде отдельных файлов с расширением .jls.

В инсталяционном пакете Jaws есть много драйверов для различных синтезаторов речи, как правило, синтезаторы эти англоязычные или многоязычные, но некоторые без поддержки русского языка. При установке Jaws на свой компьютер вы должны выбрать нужный драйвер, исходя из имеющихся у вас синтезаторов речи (это необходимо, если вы желаете использовать синтезаторы других разработчиков, а не только встроенный синтезатор Jaws).

Встроенный синтезатор Jaws имеет очень высокое качество речи и поддерживает более десятка языков (но не русский).

В состав официальной локализованной версии JAWS входят несколько синтезаторов русской речи. В ранних версиях это был синтезатор Speaking Mouse, позже был добавлен синтезатор Катерина для MS SAPI 5, который затем окончательно вошёл в состав дистрибутива JAWS в качестве встроенного синтезатора русской речи.

Для чего нужны драйверы? Программе Jaws драйверы внешних синтезаторов нужны для того, чтобы передавать им информацию (сообщения), которые они должны преобразовать в речь и выдать её на звуковую карточку. Только после этого пользователь в своих наушниках или стереоколонках услышит голос компьютера. Из сказанного следует, что компьютер, на котором предполагается использовать программу экранного доступа, должен иметь звуковую карту и подключённые к ней наушники или стереоколонки. Качество той речи, которую пользователь услышит, отчасти зависит от возможностей звуковой карты и качества наушников (колонок), но в гораздо большей степени качество синтезируемой речи зависит от самого синтезатора.

Итак, мы подошли к вопросу: как выбрать синтезатор речи? Отвечая на этот вопрос, прежде всего следует определиться с критериями выбора. Сегодня существует немало компьютерных синтезаторов речи, и все они отличаются качеством речи, скоростью и устойчивостью работы, размером и требованиями к аппаратному и программному обеспечению.

Как и положено для большинства программ, качество речи прямо пропорционально размеру установочного пакета синтезатора и объёму потребляемых им ресурсов системы (загрузка процессора, выделение памяти и т.п.) Для характеристики качества речи обычно используют такие понятия, как «естественность звучания», «фонетическая разборчивость», «комфортность восприятия» и «время привыкания».

Естественность звучания характеризует то, насколько синтезированный звук близок к человеческой речи. Пока ещё не существует синтезатора, прослушав который, человек не мог бы указать, что это неестественный звук. Однако уровень синтезаторов растет год от года, и неестественность их звучания уже не является сильной помехой восприятию информации. Первые же синтезаторы отличались такими нежелательными эффектами, как металлический призвук, отсутствие интонационного деления фрагмента речи, резкость звучания или наоборот - слишком затянутые гласные звуки.

Фонетическая разборчивость характеризует, насколько слушателю легко или трудно разобрать фонемы, произносимые синтезатором. Здесь надо понимать, что неестественная с металлическим призвуком "речь робота", может обладать высокой фонетической разборчивостью, то есть слушатель с легкостью может различить фонемы (слоги) произносимых слов. В то же время, в естественной речи разборчивость может быть невысокой (представьте себе бубнящего человека - речь на сто процентов естественная, а ничего не понять). Почему так происходит? Потому что для придания естественности звучания, синтезируемая речь проходит дополнительную фильтрацию, в результате чего получает дополнительные обертона (их богатство во многом и определяет близость синтезированной речи к человеческой). Степень фильтрации не всегда адекватно подбирается синтезатором, что ухудшает фонетическую разборчивость.

Комфортность восприятия и время привыкания показывают субъективную оценку слушателем качества синтезируемой речи. Несмотря на свою субъективность, с точки зрения пользователя, это самые главные критерии, по которым оценивается работа синтезатора. Долгое прослушивание синтезированной речи не должно вызывать чрезмерного утомления, а время привыкания должно быть достаточно коротким, чтобы обеспечить легкий переход от одного синтезатора к другому.

Как уже говорилось, синтезаторы бывают весьма требовательными к ресурсам компьютера. Некоторые из них могут не работать на медленных процессорах или им может не хватать памяти, установленной на компьютере. Так как синтез речи требует высокого быстродействия, то, как правило, все необходимые для своей работы компоненты синтезатор размещает в оперативной памяти компьютера. Следовательно, возникает вопрос о взаимодействии синтезатора и операционной системы, отвечающей за распределение ресурсов.

Следует заметить, что подчас бывает трудно сказать, кто больше виноват в том, что синтезатор работает со сбоями - он сам или иные программы (в том числе и операционная система). Конфликты могут возникать и при обращении к звуковой карте, и при выделении памяти, и по причинам, объяснить которые не представляется возможным.

Какой же из всего сказанного следует вывод? Вывод очевидный: имеет смысл установить несколько синтезаторов для решения различных задач. Например, синтезатор с отличной разборчивой речью может медленно откликаться на нажатия клавиш и вообще не реагировать на окружающие события до тех пор, пока не закончит обработку текущего фрагмента речи. Следовательно, применять его надо, скажем, для чтения книг. Однако для оперативного экранного доступа такой синтезатор не годится.

И наоборот, существуют синтезаторы, мгновенно отзывающиеся на любое действие и моментально синтезирующие речь, но трудно воспринимаемые на слух. К подобным синтезаторам некоторое время придется привыкать, чтобы без труда понимать их сообщения.

«Идеального» варианта, к сожалению, на сегодняшний день нет, да и не будет никогда (это не мы придумали, так у Гегеля было написано... правда, не о синтезе речи). Поэтому стоит проверить все доступные варианты и выбрать именно то, что удовлетворит вас и по скорости работы, и по качеству речи, и по цене. Помните, иногда лучше говорить, чем...



Распространение материалов сайта означает, что распространитель принял условия лицензионного соглашения.
Идея и реализация: © Владимир Довыденков и Анатолий Камынин,  2004-2024