Распознавание речи и голоса

Раздел форума:

Оффтопик

Автор темы:

Виктор Чижденко

Разработана система верификации личности по голосу (компьютер, программное обеспечение, плата сопряжения, электро-механический замок) со следующими уровнями ошибок: отказов от принятия решения - 0.85%, принятие "своего" за "чужого" - 0.2%, принятие "чужого" за "своего" - 0.06%.

Возможна разработка API под Win32.

Разработана программа распознавания речи раздельно произносимых слов конечного словаря с обучением на диктора на русском языке (в настоящий момент 10 цифр, без внесения серьезных изменений в программу и проведения дополнительных исследований может до 100-150 слов).

Хотел бы услышать ваши предложения по этим разработкам, а так же дельный совет: кому их можно продать или у кого к ним может быть интерес.

С уважением,

Виктор.

Я думаю это может заинтересовать Петровского из РТИ. Это заведующий кафедрой Конструирования и технологии ЭВС (сейчас она называется по другому). Он занимался этими проблемами на очень серьезном уровне. Если не сможете сами его найти, то могу помоь встретиться.

Сейчас в РТИ этим занимается доцент Серков Валентин Валентинович. Грамотный товарищ, но немного вредный :-)))

Уважаемые Volodya K. и Бобр (не зная Вашего имени, позвольте к Вам так обращаться :-)), я очень благодарен Вам за то, что Вы проявили интерес к данной теме.

Я знаю Петровского из РТИ и знаю уровень его исследований :->.(Если ему не свалятся западные деньги, то до уровня разработок, имеющихся у меня, ему "грести", как минимум, года 3).

Я не знаю Серкова В.В., но думаю, что уровень его исследований не сильно выше, чем у Петровского. (Хотя я могу и ошибаться)

Прошу прощения, если я высказался слишком жестко по поводу Петровского и Серкова, особенно у них, если они прочтут эту сообщение (честно, я не хочу никого обидеть и тем более оскорбить), но на данный момент это факт.

Я позволил себе открыть форум с целью узнать мнение людей, посещающих WWW.KV.MINSK.BY, по данной технологиии, перспективах ее развития и, кроме того, решить для себя продолжать ли данные разработки в нашей стране или срочно переквалифицироваться во что-то более прибыльное (к сведению, стаж работы по данному направлению с 1993 г.).

Прочитав Ваши предложения, я понял, что РБ до таких технологий просто не доросла. Такой категоричный вывод я сделал по той простой причине, что кроме Вас этот форум никого не заинтересовал сколько-нибудь серьезно.

Еще раз прошу прошения за столь резкой послание.

Всегда Ваш

Viktor

Уважаемый Виктор!

Мне кажется, нельзя на основании одного вопроса на форуме решать, что и как делать.

Интересно было бы узнать, насколько ваш подход отличается от подхода IBM и Kurtzveil(кажется, продукт Dragon Dictate). Подобные разработки активно ведутся и в Израиле.

Уважаемый Билл Гейтс

Я очень рад, что открытый мной форум заинтересовал еще кого-то. Прошу прощения, что так долго отвечал. Я имею достаточно большие трудности с выходом в Internet.

А теперь я постараюсь ответить на Ваши вопросы. Начну со второго. Подходы, используемые мною при распознавании голоса и речи, достаточно традиционны. В частности, при распознавании голоса используется LPC-кепстры и векторное квантование, хотя имеются некоторые собственные доработки этих алгоритмов. Если у Вас есть к этому интерес, я мог бы выслать несколько моих статей по этой теме.

Распознаванием речи я начал заниматься не так давно, около года назад. Здесь я основываюсь на подходах, предложенных и исследованных еще Рабинером, Янгом, Левинсоном и др. (скрытые марковские модели). Должен отметить, что реальное отставание от разработок Bell Labs, IBM составляет около 10 лет. Однако, применение разработок этих фирм в лоб невозможно, так как необходима адаптация к русскому языку (построение акустико-фонетической модели языка). Идеальным примером применения системы Dragon Dictate в лоб -- это "Горыныч" - программа распознавания раздельно произносимых слов русского языка. Я не знаю точно, как работает Dragon Dictate, однако, глядя на ее работу, можно предположить, что она основана на фонемном распознавании, и в основу заложены модели фонем английской речи. Применение этих моделей к посроению моделей слов русской речи не может дать той же точности на русской речи, что и на английской (фонемы русской и английской речи отличаются в корне).

Теперь, относительно первого вопроса.

Год назад была создана система автоматической верификации лисности по голосу "Вектор". Однако это была НИР и для возможности реального изготовления изделий, основанных на ней (автономное устройство, или система защиты компьютера от несанкционированного доступа, или ...) необходимы инвестиции в размере $20000-50000. Все банки и некоторые крупные фирмы республики, к которым мы обращались, считают это слишком рискованным вложением денег. (Сегодня $20000, а через 3-4 года может быть окупится. Их основной интерес: сегодня $20000, а через месяц -- $3000-5000 прибыли.) В результате известной политической ситуации в Беларуси и, соответственно, последовавшего за ней обвала экономики, у государства денег на эти цели просто нет.

Прошу простить за столь длинные словоизлияния.

С уважением Viktor.

P.S. На данный момент я ухожу из НИИ, где я сейчас работаю и занимаюсь этой темой. Жить на $24 в месяц невозможно, тем более являясь достаточно высококвалифицированным математиком (в т.ч. и по диплому) и программистом.

В ближайшее время я не собираюсь бросать заниматься этой темой, исследования по распознаванию речи интересны сами по себе.

А почему-бы уважаемому Виктору не продолжить свои изыскания где-нибудь на другом континенте?

Уверен там и деньги найдутся под такой проект.

В принципе, и на этом континенте есть неплохие места, нужно только поискать!

Кстати, Виктор, года 4 назад руководство СНГ очень интересовалось возможностью использования подобного рода технологий для стенографирования речей высшего руководства. Так что можно попробовать в данном направлении поработать.

Ага, английскую фонетику разобрали, теперь русскую наполовину разобрали, а теперь придётся трасянку разбирать :)

На каго ета вы намякаеце?

ой, что-то мне черешни захотелось, хотя сойдут и бананы :)

Романовский, браво!

Хм.. а я думал что бред какой-то написал....

Конечно, бред, но веселый:-)

с вапросами я чуствую немного опоздал, но лучше позно чем некогда:)

проблемой начел заниматся не давно и хател бы набраце по больше информации на эту тему. Если вы может прислать мне свои статьи и/или ссылки на другие источники то буду очень благодарен

зарание благодарю!

Слава К., читайте номер 13 "КВ" (последний мартовский). Там будет много информации на эту тему.

Виктор, если вы имеете дело с БГУИР, то должны знать Б.М. Лобанова. Если у вас есть что предложить - загляните к нам на www.sakrament.com.

Ну вы даете.

... Жить на $24 в месяц невозможно....

А как жил до сих пор? И при чем здесь верификация личности по голосу?

Если разработчик не знает кому продать, то знает ли он вообще надо ли кому-нибудь эта разработка?

Кстати, а какой уровень ощибок допустим для систем контроля доступа?

Смотря к чему контролировать доступ.

ИМХО, вероятность несанкционированного доступа в 0,0006 выглядит достаточно неплохо - того же порядка, что у привокзальной камеры хранения (если не учитывать что у большинства людей первые две цифры кода обычно 19). К тому же наверняка этот показатель можно улучшить, если допустить большую вероятность принятия своего за чужого.

Другой вопрос, что такого рода систему нельзя ставить на ту же камеру хранения или дверь подъезда: есть люди немые или с дефектами речи. Во всяком случае, не как единственное средство идентификации.

А вот на автомобильную сигнализацию вполне сошло бы.

Я конечно не спец. в данной области и точно не знаю, что есть у нашей доблестной ГБ, но они вполне могли бы заинтересоваться. Например для автоматического стенографирования прослушки с опознаванием говорящих. Как у буржуинов. Можешь помочь им "добрым" делом.

А ты думаешь, не заинтересовались? Они уже давно купили что нужно. И еще неизвестно, как система используется - у телефонных линий качество подходящее, работать программа будет нормально.

дык, что с русскими базами? так до сих пор никто не наговорил, не траскрибировал...

Смешно вас слушать :(

Только попробуйте меня выгнать :(

Виктор, я уже довольно поздно нашел Ваш форум, и не знаю заглядываете ли Вы сейчас еще сюда. Если да, то расскажите как Ваши дела с распознаванием речи сейчас?

Меня это интересует, поскольку тоже занимаюсь аналогичной проблемой.

Кстати в качестве информации. У нас в городе есть фирма, которая долгое время работавла в комманде з западными(LHSP, IBM, а сейчас решила сделать ской движок. Разработка уже готова на 90%. Основана на скрытых марковских моделях, но движок не стационарный, а есть целый набор инструментов, который генерирует движок, основываясь на наговореной базе, после ее обработки. Язык базы не имеет значения. Тесты проведены на английской (американской) фонетической базе. Результаты довольно высоки. В дикторонезависимом режиме это около 95%.

Если у Вас есть возможность пришлите мне свои статьи. Я интересуюсь распознаванием русского языка.

Я видимо тоже поздновато зашел сюда... Не подскажете, где можно накопать информации о современных алгоритмах идентификации по голосу ??

Спасибо.

Идентификация по голосу, имхо — идея изначально провальная. Ибо: голос человеческий имеет склонность меняться очень сильно, в зависимомости от здоровья и состояния человека. Кто-нибудь из Вас смотрел спектрограммы своего голоса в состоянии насморка, а?! А в состоянии подпития? На обычную и рядом не похоже.

А вот вычислить общую закономерность в формировании фонем, должно быть можно — сдается мне, что айбиэмовская ViaVoice так и работает…

просмотрел все проги по управлению компом голосом.Для меня необходимо найти самую лучшую прогу:так как не могу самостоятельно управлять мышью и клавой.

Нашёл (микросервис система распознавания речи) стоит 60 долларов(русский и английский варианты). Стоит ли присматреться к ней или есть лучше.

Посоветуйте пожалуйста. Заранее благодарю.

Так, что тема закрыта? Или еще кто-нить ответит, что сейчас с автоматическим распознаванием речи? Сильно нужно, готовы купить систему.

Даа, не ожидал, что тема жива до сих пор. Юрий, немного странно, что ты не смог найти меня в 2001 г. (сюда я уже не заглядывал), пришел бы я тогда к вам на сакрамент. Что-ж, после долгих путешествий по аутсорсинговым прорамерским конторам, я вернулся в эту область и продолжаю сейчас в ней работать.

Если кому интересны разработки конторы, где я сейчас работаю, милости прошу на мыло: ostapenko-a@speechpro.com.

Если со мной связаться, то мыло chyzhdzenka@mail.ru.

Кстати квалифицированные разработчики нам нужны во вногих направлениях, так что милости просим.