Распознавание речи и голоса

Раздел форума: 

Аватар пользователя admin

Автор темы: 

Виктор Чижденко
Разработана система верификации личности по голосу (компьютер, программное обеспечение, плата сопряжения, электро-механический замок) со следующими уровнями ошибок: отказов от принятия решения - 0.85%, принятие "своего" за "чужого" - 0.2%, принятие "чужого" за "своего" - 0.06%.

Возможна разработка API под Win32.

Разработана программа распознавания речи раздельно произносимых слов конечного словаря с обучением на диктора на русском языке (в настоящий момент 10 цифр, без внесения серьезных изменений в программу и проведения дополнительных исследований может до 100-150 слов).

Хотел бы услышать ваши предложения по этим разработкам, а так же дельный совет: кому их можно продать или у кого к ним может быть интерес.

С уважением,

Виктор.

 
Аватар пользователя Volodya k
Я думаю это может заинтересовать Петровского из РТИ. Это заведующий кафедрой Конструирования и технологии ЭВС (сейчас она называется по другому). Он занимался этими проблемами на очень серьезном уровне. Если не сможете сами его найти, то могу помоь встретиться.

Аватар пользователя Бобр
Сейчас в РТИ этим занимается доцент Серков Валентин Валентинович. Грамотный товарищ, но немного вредный :-)))
Аватар пользователя Viktor
Уважаемые Volodya K. и Бобр (не зная Вашего имени, позвольте к Вам так обращаться :-)), я очень благодарен Вам за то, что Вы проявили интерес к данной теме.

Я знаю Петровского из РТИ и знаю уровень его исследований :->.(Если ему не свалятся западные деньги, то до уровня разработок, имеющихся у меня, ему "грести", как минимум, года 3).

Я не знаю Серкова В.В., но думаю, что уровень его исследований не сильно выше, чем у Петровского. (Хотя я могу и ошибаться)

Прошу прощения, если я высказался слишком жестко по поводу Петровского и Серкова, особенно у них, если они прочтут эту сообщение (честно, я не хочу никого обидеть и тем более оскорбить), но на данный момент это факт.

Я позволил себе открыть форум с целью узнать мнение людей, посещающих WWW.KV.MINSK.BY, по данной технологиии, перспективах ее развития и, кроме того, решить для себя продолжать ли данные разработки в нашей стране или срочно переквалифицироваться во что-то более прибыльное (к сведению, стаж работы по данному направлению с 1993 г.).

Прочитав Ваши предложения, я понял, что РБ до таких технологий просто не доросла. Такой категоричный вывод я сделал по той простой причине, что кроме Вас этот форум никого не заинтересовал сколько-нибудь серьезно.

Еще раз прошу прошения за столь резкой послание.

Всегда Ваш

Viktor

Аватар пользователя Билл Гейтс
Уважаемый Виктор!

Мне кажется, нельзя на основании одного вопроса на форуме решать, что и как делать.

Интересно было бы узнать, насколько ваш подход отличается от подхода IBM и Kurtzveil(кажется, продукт Dragon Dictate). Подобные разработки активно ведутся и в Израиле.

Аватар пользователя Viktor
Уважаемый Билл Гейтс

Я очень рад, что открытый мной форум заинтересовал еще кого-то. Прошу прощения, что так долго отвечал. Я имею достаточно большие трудности с выходом в Internet.

А теперь я постараюсь ответить на Ваши вопросы. Начну со второго. Подходы, используемые мною при распознавании голоса и речи, достаточно традиционны. В частности, при распознавании голоса используется LPC-кепстры и векторное квантование, хотя имеются некоторые собственные доработки этих алгоритмов. Если у Вас есть к этому интерес, я мог бы выслать несколько моих статей по этой теме.

Распознаванием речи я начал заниматься не так давно, около года назад. Здесь я основываюсь на подходах, предложенных и исследованных еще Рабинером, Янгом, Левинсоном и др. (скрытые марковские модели). Должен отметить, что реальное отставание от разработок Bell Labs, IBM составляет около 10 лет. Однако, применение разработок этих фирм в лоб невозможно, так как необходима адаптация к русскому языку (построение акустико-фонетической модели языка). Идеальным примером применения системы Dragon Dictate в лоб -- это "Горыныч" - программа распознавания раздельно произносимых слов русского языка. Я не знаю точно, как работает Dragon Dictate, однако, глядя на ее работу, можно предположить, что она основана на фонемном распознавании, и в основу заложены модели фонем английской речи. Применение этих моделей к посроению моделей слов русской речи не может дать той же точности на русской речи, что и на английской (фонемы русской и английской речи отличаются в корне).

Теперь, относительно первого вопроса.

Год назад была создана система автоматической верификации лисности по голосу "Вектор". Однако это была НИР и для возможности реального изготовления изделий, основанных на ней (автономное устройство, или система защиты компьютера от несанкционированного доступа, или ...) необходимы инвестиции в размере $20000-50000. Все банки и некоторые крупные фирмы республики, к которым мы обращались, считают это слишком рискованным вложением денег. (Сегодня $20000, а через 3-4 года может быть окупится. Их основной интерес: сегодня $20000, а через месяц -- $3000-5000 прибыли.) В результате известной политической ситуации в Беларуси и, соответственно, последовавшего за ней обвала экономики, у государства денег на эти цели просто нет.

Прошу простить за столь длинные словоизлияния.

С уважением Viktor.

P.S. На данный момент я ухожу из НИИ, где я сейчас работаю и занимаюсь этой темой. Жить на $24 в месяц невозможно, тем более являясь достаточно высококвалифицированным математиком (в т.ч. и по диплому) и программистом.

В ближайшее время я не собираюсь бросать заниматься этой темой, исследования по распознаванию речи интересны сами по себе.

Аватар пользователя Алексей Романовский
А почему-бы уважаемому Виктору не продолжить свои изыскания где-нибудь на другом континенте?

Уверен там и деньги найдутся под такой проект.

Аватар пользователя Билл Гейтс
В принципе, и на этом континенте есть неплохие места, нужно только поискать!

Кстати, Виктор, года 4 назад руководство СНГ очень интересовалось возможностью использования подобного рода технологий для стенографирования речей высшего руководства. Так что можно попробовать в данном направлении поработать.

Аватар пользователя Алексей Романовский
Ага, английскую фонетику разобрали, теперь русскую наполовину разобрали, а теперь придётся трасянку разбирать :)
Аватар пользователя Аляксандр Л.
На каго ета вы намякаеце?
Аватар пользователя Алексей Романовский
ой, что-то мне черешни захотелось, хотя сойдут и бананы :)
Аватар пользователя Robert Life
Романовский, браво!
Аватар пользователя Алексей Романовский
Хм.. а я думал что бред какой-то написал....
Аватар пользователя Robert Life
Конечно, бред, но веселый:-)
Аватар пользователя Slava K
с вапросами я чуствую немного опоздал, но лучше позно чем некогда:)

проблемой начел заниматся не давно и хател бы набраце по больше информации на эту тему. Если вы может прислать мне свои статьи и/или ссылки на другие источники то буду очень благодарен

зарание благодарю!

Аватар пользователя Анатолий Ализар
Слава К., читайте номер 13 "КВ" (последний мартовский). Там будет много информации на эту тему.
Аватар пользователя Юрий Чайков
Виктор, если вы имеете дело с БГУИР, то должны знать Б.М. Лобанова. Если у вас есть что предложить - загляните к нам на www.sakrament.com.
Аватар пользователя Victor
Ну вы даете.

... Жить на $24 в месяц невозможно....

А как жил до сих пор? И при чем здесь верификация личности по голосу?

Если разработчик не знает кому продать, то знает ли он вообще надо ли кому-нибудь эта разработка?

Аватар пользователя Victor
Кстати, а какой уровень ощибок допустим для систем контроля доступа?
Аватар пользователя Викинг
Смотря к чему контролировать доступ.

ИМХО, вероятность несанкционированного доступа в 0,0006 выглядит достаточно неплохо - того же порядка, что у привокзальной камеры хранения (если не учитывать что у большинства людей первые две цифры кода обычно 19). К тому же наверняка этот показатель можно улучшить, если допустить большую вероятность принятия своего за чужого.

Другой вопрос, что такого рода систему нельзя ставить на ту же камеру хранения или дверь подъезда: есть люди немые или с дефектами речи. Во всяком случае, не как единственное средство идентификации.

А вот на автомобильную сигнализацию вполне сошло бы.

Аватар пользователя Aser
Я конечно не спец. в данной области и точно не знаю, что есть у нашей доблестной ГБ, но они вполне могли бы заинтересоваться. Например для автоматического стенографирования прослушки с опознаванием говорящих. Как у буржуинов. Можешь помочь им "добрым" делом.
Аватар пользователя Анатолий Ализар
А ты думаешь, не заинтересовались? Они уже давно купили что нужно. И еще неизвестно, как система используется - у телефонных линий качество подходящее, работать программа будет нормально.
Аватар пользователя AndreyR
дык, что с русскими базами? так до сих пор никто не наговорил, не траскрибировал...
Аватар пользователя Валентин Серков
Смешно вас слушать :(
Аватар пользователя Игорь Сюртуков
Только попробуйте меня выгнать :(
Аватар пользователя Дима
Виктор, я уже довольно поздно нашел Ваш форум, и не знаю заглядываете ли Вы сейчас еще сюда. Если да, то расскажите как Ваши дела с распознаванием речи сейчас?

Меня это интересует, поскольку тоже занимаюсь аналогичной проблемой.

Кстати в качестве информации. У нас в городе есть фирма, которая долгое время работавла в комманде з западными(LHSP, IBM, а сейчас решила сделать ской движок. Разработка уже готова на 90%. Основана на скрытых марковских моделях, но движок не стационарный, а есть целый набор инструментов, который генерирует движок, основываясь на наговореной базе, после ее обработки. Язык базы не имеет значения. Тесты проведены на английской (американской) фонетической базе. Результаты довольно высоки. В дикторонезависимом режиме это около 95%.

Если у Вас есть возможность пришлите мне свои статьи. Я интересуюсь распознаванием русского языка.

Аватар пользователя Владимир
Я видимо тоже поздновато зашел сюда... Не подскажете, где можно накопать информации о современных алгоритмах идентификации по голосу ??

Спасибо.

Аватар пользователя суслик
Идентификация по голосу, имхо — идея изначально провальная. Ибо: голос человеческий имеет склонность меняться очень сильно, в зависимомости от здоровья и состояния человека. Кто-нибудь из Вас смотрел спектрограммы своего голоса в состоянии насморка, а?! А в состоянии подпития? На обычную и рядом не похоже.

А вот вычислить общую закономерность в формировании фонем, должно быть можно — сдается мне, что айбиэмовская ViaVoice так и работает…

Аватар пользователя Руслан
просмотрел все проги по управлению компом голосом.Для меня необходимо найти самую лучшую прогу:так как не могу самостоятельно управлять мышью и клавой.

Нашёл (микросервис система распознавания речи) стоит 60 долларов(русский и английский варианты). Стоит ли присматреться к ней или есть лучше.

Посоветуйте пожалуйста. Заранее благодарю.

Аватар пользователя Иван
Так, что тема закрыта? Или еще кто-нить ответит, что сейчас с автоматическим распознаванием речи? Сильно нужно, готовы купить систему.
Аватар пользователя Виктор Чижденко
Даа, не ожидал, что тема жива до сих пор. Юрий, немного странно, что ты не смог найти меня в 2001 г. (сюда я уже не заглядывал), пришел бы я тогда к вам на сакрамент. Что-ж, после долгих путешествий по аутсорсинговым прорамерским конторам, я вернулся в эту область и продолжаю сейчас в ней работать.

Если кому интересны разработки конторы, где я сейчас работаю, милости прошу на мыло: ostapenko-a@speechpro.com.

Если со мной связаться, то мыло chyzhdzenka@mail.ru.

Кстати квалифицированные разработчики нам нужны во вногих направлениях, так что милости просим.