О речи, компьютерной и человеческой

Это было холодным весенним утром. В конце весны такое утро пропитывает все клетки усталого от зимы организма невообразимой свежестью. Природа дышит. Ты дышишь. Солнце пробивает пелену сна, и пение птиц оповещает всю округу о приходе нового дня. И где-то рядом звучит голос: "Проснись, проснись, проснись...".

Знаете, это кричал я. Притом уже около трех часов кряду. Причем с разной интонацией, качественно выговаривая все буквы, ну а в конце третьего часа уже вставляя элементы ненормативной лексики (что являлось не совсем обязательным). Именно в таком состоянии холодным весенним утром застали меня друзья. А дело все в том, что я установил на своем РС программу распознавания речи и управления компьютером с помощью голоса Dragon Dictate v.3.01, а точнее, ее русскую интерпретацию "Горыныч". "Проснись" - это ключевое слово, с помощью которого и должен запускаться сам "Горыныч".

В чем же особенность этой программы? Эта очень мощная разработка включает в себя воплощения новаторских идей, связанных с оцифровкой и превращением во внутренние компьютерные команды человеческого голоса. Программа делает возможным вводить текстовые документы в WordPad и NotePad не с клавиатуры, а с микрофона. Таким же образом программа позволяет работать и с некоторыми другими приложениями Windows, например, Сalculator. Разработчики обещают обеспечение адаптации компьютера к голосу пользователя. То есть с течением времени ее использования программа станет лучше Вас понимать. Сразу хочется отметить, что автор этой статьи не обладает голосом диктора, а тембр моего голоса - вещь переменчивая и зависящая сразу от многих факторов. Поэтому и особого общения с "Горынычем" у меня как-то не получилось, хотя английский вариант программы Dragon Dictate оказался гораздо понятливей. Причем для изучения специфики языка, его транскрипции и правил произношения я не вижу лучшего пути, чем поработать с Dragon Dictate. Там есть капитальные обучалки к программе, где можно получить нормальный вариант прочтения и прокрутить записанный свой. После первоначального обучения таким образом можно попробовать прочитать любой текст на английском и провести сравнительный анализ исходного и записанного в Word. И если Вас неправильно поймут здесь, то, наверное, уж и в Англии реакция будет подобна. В результате получаем те же уроки английского языка, но только учимся у англичан. В течение обучения следует периодически переустанавливать программу, так как со временем она адаптируется к Вашему прочтению "аглицких" слов. Также при установке можно выбрать опции низкого и высокого голоса. Пользователей у программы может быть много. Поэтому можно не перезагружать программу, а просто заново запомнить себя за другим именем. Но это зависит от наличия свободного места на Вашем винчестере. Хотя сама программа не занимает много места. Основную память съедают словари.

Принцип работы со словарями более-менее понятен. Составляется некая математическая модель, описывающая параметры звуковой синусоиды, и закрепляется соответствующее ей слово. В русской версии программы это хорошо видно, потому что Вы сами загружаете свои словари. После произнесения слова перед Вами открывается окно, в которое Вы вводите с клавиатуры само слово или выбираете его из списка, если таковое уже присутствует. Вся сложность математических расчетов программы состоит в том, что при различном прочтении одного и того же слова (с разной интонацией, не очень разборчиво) математическая модель предусматривает и запоминает отклонения между разными интерпретациями вводимого слова. Венцом успеха является вывод в документ WordPad слова без окна диалога. Даже если уже и есть в наличии готовые словари, все равно компьютер будет Вас сто раз переспрашивать, пока не привыкнет. Как Вы уже поняли, словари можно составлять и самим. Только русский язык очень богат с его падежами и оборотами, поэтому настройка системы требует колоссального терпения и усидчивости. И только по истечении некоторого времени у Вас появится возможность быстрого ввода документов в WordPad и т.п. С английской версией немного легче - язык удобнее для диктовки (аналог русских "буду","будем","будут" и т.п. - английское - "will" - чувствуете разницу: у них-то это всего лишь одно слово). Так что с пакетом (особенно русской версией) предстоит очень много работы. К этому добавляется еще одна проблема. Вам надо как-то обозначить знаки препинания, чтобы они отличались от слов. Например, чтобы при произнесении выражения "точка отсчета" у Вас не выдало ". отсчета". А статья филолога о знаках препинания будет вообще напоминать строки символов. Конечно, выход всегда можно найти, но его надо искать! Плюсом работы в том же WordPad является возможность "подшить" в словарь не только символы с клавиатуры, но и любые другие. И не надо для этого каждый раз обращаться к "Вставка/Символ...". Это очень удобно для записей различных формул и т.п. Еще одним плюсом является возможность одновременного ввода и с микрофона, и с клавиатуры.

Теперь перейдем поближе к словарям. С их помощью можно тажке читать текстовые файлы вслух. Для Dragon Dictate эта часть программы устанавливается отдельно и называется Text-to-Speech Add On. Вообще, такого рода программы, преобразующие текст в голос, имеют гораздо большую историю, чем обратные. Ранее были распространены программы побуквенного прочтения. Современные работают по принципу словарей. Главное - чтобы слово было прочитано. Поэтому никаких математических моделей и не надо. Организуется некоторый список слов и список соответствующих им звуковых файлов. Слово записано - компьютер проговаривает (точнее, MediaPlayer проигрывает звуковой файл). При большом желании можно самому написать подобную программу. Аналогов можно встретить множество, один более-менее распространенный из них - IBM VoycType Simply Speaking.

 

В завершение статьи расскажу о том, как из простой человеческой речи получить кибернетическую. Для этого необходимо WAV-файл записанного голоса преобразовать в программе типа WAVE SE II, где есть эффект-операция AutoStutter, позволяющая получить голос робота. Я об этом писал ранее, в статье "Эффекты и спецэффекты" ("КВ" №28, 1998). При необходимости после преобразования звуковой файл можно дополнительно обработать флэнджер-эффектом.

Кристофер М. ИХИХО,
аранжировщик "S-MEDIUM DX"

Версия для печатиВерсия для печати

Номер: 

34 за 1998 год

Рубрика: 

Software
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!