Интеллектуальные речевые технологии

Авторитет и результаты белорусских разработчиков речевых технологий в прошлом традиционно были на высоком уровне, чего нельзя сказать на сегодняшний день в силу известных объективных причин. Но, тем не менее, ими сегодня могут быть предложены несколько коммерческих продуктов, которые практически не уступают аналогичным зарубежным образцам.

Впрочем, об этом позже, а сначала нужно немного разобраться в основах речевых технологий: чего добились в этом отношении лидеры мировой индустрии, что такое речевые технологии и чем они отличаются от классического понимания проблемы распознавания речи.

Сегодня в этом направлении работают уже не десятки, а сотни творческих коллективов в научных и учебных заведениях, а также в крупных корпорациях. Об этом можно судить по таким международным форумам ученых и специалистов в области речевых технологий, как ICASSP, EuroSpeech, ICPHS и др. Результаты работы, на которую, как у нас образно говорят, "навалились всем миром", трудно переоценить. О них неоднократно рассказывалось на страницах компьютерной периодики, из которой просматривается диапазон функциональных возможностей интеллектуальных речевых технологий. Прежде всего это:

Автоматическое распознавание речи (ее семантики);
Автоматическое распознавание личности говорящего по речевому сигналу;
Сжатие речи;
Синтез речи;
Автоматическое распознавание языка, на котором звучит речь;
Автоматическое распознавание ключевых слов в потоке речи и определение ее тематики и др.

Здесь мы коснемся лишь первых двух направлений.

Системы автоматического распознавания речи (САРР)

В широком понимании это такие системы, которые осуществляют фонемное декодирование речевого акустического сигнала при произношении речевых сообщений свободным стилем, произвольным диктором, без учета проблемной ориентации и ограничений на объем словаря. В узком смысле САРР решают какие-то частные задачи с целью облегчения их решения, накладывая некоторые ограничения на требования к распознаванию естественно звучащей речи в классическом его понимании. Таким образом, диапазон разновидностей САРР простирается от простых автономных устройств или детских игрушек, которые способны распознавать или синтезировать раздельно произносимые слова, цифры, города, имена и т.п., до суперсложных систем распознавания естественно звучащей речи и ее синтеза для использования, например, в качестве секретаря-референта (IBM VoiceType Simply Speaking Gold).

Распознавание слитной речи значительно сложнее задачи распознавания раздельно произносимых слов. Например, при переходе от распознавания изолированных слов к распознаванию слитной речи на словаре в 1000 слов ошибка увеличивается с 3,1% до 8,7%, кроме того, для обработки слитной речи требуется в три раза больше времени.

Самой сложной из задач распознавания слитной речи является задача распознавания слитно произносимых неформатированных предложений, которую следует трактовать как автоматический перевод речи в последовательность слов. Наибольший успех в области распознавания речи за последние несколько лет был достигнут при решении задачи распознавания речи большого словаря. Современные системы такого типа способны распознавать десятки тысяч слов с ошибкой 5-7%, т.е. в 7 словах из 100 могут быть допущены ошибки. Сегодня десятки фирм предлагают свои коммерческие распознаватели больших словарей для диктовки устных текстов в компьютер. Системой распознавания речи большого словаря (СРРБС) считается распознаватель речи, словарь которой - более 1000 слов. Эта задача решается, главным образом, с помощью статистических методов распознавания образов.

"Голосовые ключи"

Так иногда называют системы автоматического распознавания личности по речи. Обычно это биометрические системы санкционированного доступа либо к информации, либо физического доступа к объектам. Здесь следует различать две разновидности таких систем: это системы верификации и системы идентификации. При верификации пользователь предварительно предъявляет свой код, т.е. заявляет о себе тем или иным способом, а затем вслух произносит пароль или какую-нибудь произвольную фразу. Система проверяет, соответствует ли данный голос тем эталонам, которые были вызваны из памяти компьютера по предъявленному коду. При идентификации предварительного заявления о пользователе не делается. В этом случае выполняется сравнение данного голоса со всеми эталонами и затем конкретно определяется, кем является человек, который предъявил свой голос для опознания. Сегодня известно множество подходов и методов для реализации таких систем и все они, как правило, отличаются друг от друга (сколько разработчиков, столько и их разновидностей). Это же можно сказать и о системах распознавания речи. Поэтому судить о характеристиках конкретных систем распознавания речи и распознавания личности по речи можно только с помощью специальных тестовых баз данных.

Белорусские разработки

Как уже было сказано, у нас в стране тоже ведутся разработки в области интеллектуальных речевых технологий, и результаты уже есть. Известно, как минимум, три коммерческих продукта от разных групп разработчиков:

Система многоканальной телефонной записи, компрессии и хранения речи или любых других акустических сигналов практически без искажения их спектральных характеристик при декомпрессии под названием "Keeper" (ООО "Мемофон");
Система распознавания речи небольшого словаря по телефонному каналу (ИТК НАН РБ);
Система верификации личности по паролю ("Голосовой ключ"), реализованная в виде динамической подключаемой библиотеки (DLL) VAPI (VerificAPI) (фирма БРТ) (см. интервью с А. Рыловым в этом номере).

Последняя система проходила тестирование на речевой базе данных, записанной для лиц одной возрастной группы (студенты ВУЗа) при общем количестве тестирований 1518. При этом надежность верификаций составила 99.94%. Кроме того, БРТ оказывает услуги, связанные с идентификацией личности по голосу и речи, как частным лицам, так и правоохранительным органам.

Александр РЫЛОВ,
[email protected]

Система выглядит внешне очень просто, несмотря на свою высокотехнологическую начинку. Александр Рылов любезно продемонстрировал мне, журналисту, ее работу и даже разрешил сделать скриншоты.

"Голосовой ключ", который установлен и успешно работает в опытном режиме в комнате 201 здания БелНИИПА, представляет собой небольшую компьютерную программу и древний микрофон с кнопкой активации, установленный на входной двери и подключенный к компьютеру и входному замку. Кстати, коробка для этого микрофона была когда-то сделана из консервной банки.

Предварительно образцы голоса (фраза-пароль) каждого пользователя, которому разрешено входить, записываются системой. Для входа в комнату нужно просто нажать кнопку микрофона и сказать свой пароль. После анализа голоса система может пропустить или не пропустить человека в комнату. Голос сравнивается со всеми образцами из базы авторизованных пользователей, после чего определяется, кому принадлежит этот голос, и записываются данные о входе в комнату "узнанного" человека. Если же система классифицирует человека как "чужого", то не впускает его в комнату.

Система очень гибкая в том смысле, что определяет личность человека даже в том случае, если он не совсем верно произносит пароль (пропускает во фразе слова или добавляет новые).

На скриншоте - моя попытка войти в комнату по паролю Александра Рылова.

Видно, что система приняла меня за "чужого". Впрочем, по математическим характеристикам, которые и являются основным ноу-хау системы "Голосовой ключ", мой бас почему-то ближе всего к голосу какой-то Лены.

Для систем такого рода существует два вида ошибок: когда "свой" человек принимается за "чужого" или когда "чужой" - за одного из "своих". И если ошибки первого рода не очень критичны (достаточно произнести пароль еще раз), то ошибки второго рода - это главная уязвимость системы. Как сказал Александр Рылов, по результатам тестирования система только однажды (после 1518 тестов) допустила ошибку второго рода.

Очевидно, что "Голосовой ключ" можно использовать не только для пропуска людей в комнату, но и для многих других целей, например, запароливания архивных файлов на компьютере или вообще для входа в любую компьютерную систему, даже для авторизации владельца кредитной карточки по телефону.

Анатолий АЛИЗАР