Незаметная смерть распознавания речи

Предполагалось, что когда компьютер научится понимать человеческую речь, мы быстро сможем создать искусственный интеллект. Но точность систем распознавания речи достигла своего пика в 1999 году и с тех пор застыла на месте. Академические тесты (cs.brandeis.edu/~marc/misc/proceedings/lrec-2006/pdf/802_pdf.pdf) 2006 года констатируют: системы общего профиля так и не преодолели уровень 80%, тогда как у человека этот показатель составляет 96-98%.

Профессор Роберт Фортнер из Media Research Institute считает, что создатели систем распознавания речи окончательно зашли в тупик. Программисты сделали все, что смогли, и у них не получилось. Спустя несколько десятилетий они поняли, что человеческая речь - не просто набор звуков. Акустический сигнал не несет достаточно информации для распознавания текста.

Сложность задачи можно себе представить. По некоторым оценкам (clas.mq.edu.au/infinite_sentences/index.html), количество возможных предложений в человеческом языке составляет 10570. В документированных источниках зафиксирована лишь малая их часть, так что систему невозможно научить, даже если "скормить" ей все тексты, созданные людьми.

У многих слов в языке - сотни или тысячи значений. Выбор конкретного значения зависит от контекста, то есть от окружающих слов. В устной речи он еще зависит от выражения лица или от интонации.

Наш мозг способен генерировать текст совершенно произвольно, используя интуитивно понятные правила функциональной грамматики и усвоенную с возрастом семантическую парадигму каждого слова. Эти правила описывают, какие слова могут сочетаться друг с другом и каким образом (через какие функциональные элементы). Значение каждого слова зависит от значения предыдущего слова, а в сложных случаях наш мозг распознает речь лишь по обрывкам фраз, зная контекст.

 

Базовые правила функциональной грамматики понятны каждому человеку, но их никак не удается формализовать, чтобы стало понятно и компьютеру. А без этого никак. Когда компьютер пытается распознать ранее не встречавшиеся ему предложения, он неизбежно будет допускать ошибки в распознавании, если у него нет грамматического парсера и словаря с семантическими парадигмами, встроенного в человеческий мозг.

Например, российские лингвисты когда-то попытались составить семантическую парадигму одного простого предлога русского языка (кажется, ПРИ). Они дошли до нескольких сотен значений, каждое из которых допускает свой набор последующих элементов. И это был явно не полный список.

По грамматике предлогов проводятся целые научные конференции (www.philol.msu.ru/~lex/gsp/gsppart.php, некоторые ученые всю жизнь изучают предлог ПО и не могут до конца раскрыть его тайны). А ведь подобное описание требуется для каждой морфемы человеческого языка, включая приставки и суффиксы. Только после этого можно будет приступить к программированию компьютерных систем распознавания речи. По силам ли человечеству эта задача? Ведь нужно учесть еще, что парадигма каждого элемента человеческой речи постоянно меняется, ведь язык живет своей жизнью и все время эволюционирует. Как компьютерная система сможет самообучаться?

Самый поверхностный анализ опубликованных компанией Google в Интернете текстов позволил выявить триллион объектов (googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html). Это лишь мизерная часть морфем, из которых состоит наша речь. Google выложил 24-гигабайтный архив с текстами во всеобщий доступ и прекратил дальнейшие публикации по этой теме.

Проект MindNet по созданию "универсального парсера" компания Microsoft начала в 1991 году. Они пытались построить универсальную карту всех возможных взаимосвязей между словами. На проект потратили много сил и финансовых средств, но были вынуждены практически прекратить исследования в 2005 году.

Можно поставить точку и начинать все сначала, только другим способом (гораздо более сложным). Язык необходимо формализовать в рамках единой функциональной грамматики, универсальной для всех языков, и без серьезной помощи лингвистов тут не обойтись, если задача вообще решаема.

Анатолий АЛИЗАР

Версия для печатиВерсия для печати

Номер: 

18 за 2010 год

Рубрика: 

С миру по байту
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!
 

Комментарии

Аватар пользователя Михаил Фатеев
Здравствуйте Анатолий АЛИЗАР!

На 90% согласен с тем, что Вы написали в своей статье (что бывает крайне редко).

Я давно занимаюсь распознаванием и синтезом речи.

Когда-то самостоятельно тестировал Dragon Dictate на предмет качества распознавания.

Со мной работал парень, очень хорошо знавший американский вариант английского языка. После того как он наговорил часа четыре текст, который выводил компьютер, надёжность распознавания сразу составила более 95%, даже при беглом прозношении. Правда на следующий день утром она упала до 60%, пока он снова не разговорился и распознавание восстановилось.

Так что, задача использования контекста очень важна, но главное не в этом.

Главное в том, что и синтез речи "по правилам" (когда компьютер сам генерирует звуки) тоже потерпел фиаско.

Современные качественные синтезаторы речи используют звуки, произнесённые человеком.

Дело в том, что ухо человека воспринимает звуки не с помощью спектра, Фурье, кепстров, КЛП, вейвлетов и пр. и пр., а некоим совершенно другим образом.

Так что, если эта задача будет решена, то можно будет сделать синтезатор речи, качество которого будет также отличаться от обычной речи, как печатный текст отличается от небрежного рукописного. (Важно для авиадиспетчеров и пр.) Можно будет делать необыкновенную музыку и пр.

Кстати, решением именно этой задачи я сейчас и занимаюсь.

Аватар пользователя Михаил Фатеев
Ещё одна заметка.

Когда Word проверяет ошибки в текстах, которые Вы пишете, он использует

правила построения словоформ русского языка для предлогов, суффиксов, окончаний и т.д..

Аватар пользователя Фархад
>> Предполагалось, что когда компьютер научится понимать человеческую речь, мы быстро сможем создать искусственный интеллект

Правильно предполагалось. Но только заметьте, именно "понимать", а не переводить звук в текст, что есть две большие разницы (С)

Понимание (хоть речи, хоть изображений), как известно по всем букварям, основывается на модели мира внутри системы, с которой какраз и вышел большой облом. А тут почему-то все эту прописную истину забыли и впали в механицизм....

Аватар пользователя mike
>Понимание (хоть речи, хоть изображений), как известно по всем букварям, основывается на модели мира внутри системы, с которой какраз и вышел большой облом.

И кот понимает. А комп -- нет. Бо не отражает. Даёшь научную теорию отражения! Парни, а не слабо ли статью тиснуть на этую тему? Кристофер ИМХО бы справился...

Аватар пользователя Логик
mike (old student) > Даёшь научную теорию отражения!

Теорию отражения? - Хм, этим "развлекались" в середине 20 века. - Сейчас не то время, чтобы продолжать этой ... дурью маяться. имхо. - На дворе век ... ПОСТМОДЕРНИЗМА, - какая к ... теория отражения!?

Аватар пользователя Инкогнито
Логик, не скажи, рефлексия всегда актуальна.
Аватар пользователя Логик
>рефлексия всегда актуальна

Не спорю, но "теория отражения" в том виде, что была в 20 веке - нет. имхо