Юрий Чайков и Юрий Пачковский точно знают, как звучит голос будущего

Сегодня наши собеседники - ведущие разработчики белорусской компании "Сакрамент" (www.sakrament.com) Юрий Чайков и Юрий Пачковский. Это пока единственная компания на постсоветском пространстве, ведущая разработки по распознаванию и синтезу речи.


Юрий Чайков

Ведущий специалист в области синтеза речи на ПК, идентификации по голосу и специализированного ПО для людей с ослабленным зрением. Работает с самого основания компании.

Родился в 1979 году. Окончил Лицей при БГУ и поступил на факультет радиофизики и электроники БГУ. Соросовский студент. Окончил университет с отличием, одновременно получив диплом бакалавра. Тема дипломной работы - "Разработка и исследование алгоритмов цифровой обработки сигналов для реализации аудиоэффектов". Затем окончил с отличием магистратуру БГУ с присвоением ученой степени магистра. Тема магистерской диссертации "Система синтеза русской речи на основе гармонической модели". Представлял нашу страну на международных конференциях в Брно (Чехия, EURASIP Biosignal 2002), Авиньоне (Франция, RIAO 2004). Имеет ряд печатных работ, посвященных обработке сигналов в системах биометрии, биомедицине, идентификации, индексации и верификации по голосу (международные конференции в Польше, Греции, Тунисе, Италии и Нидерландах). В настоящий момент заканчивает аспирантуру, работает над кандидатской диссертацией.

Программированием начал заниматься еще в школе. Был победителем республиканских олимпиад по информатике. Работа в компании, которая занимается распознаванием и синтезом речи, стала логическим продолжением учебы в университете - специализацией Юрия была обработка сигналов вообще и звука, в частности.

 


Юрий Пачковский

Пачковский Юрий Владимирович, 25 лет. Ведущий специалист в области распознавания речи и мобильных разработок. Работает с самого основания компании.

В 1996 г. окончил гимназию №1 г. Борисова с золотой медалью. Неоднократный победитель республиканских и Соросовских олимпиад по физике. В 1996 г. поступил на факультет радиофизики и электроники БГУ. Окончил БГУ в 2001 г. с красным дипломом, затем поступил в магистратуру БГУ. В 2002 г. окончил магистратуру с отличием. Сразу же поступил в аспирантуру БГУ и сейчас является аспирантом 3-го года обучения. Автор научных статей по обработке речи и электрокардиограмм, вышедших в трудах международных научных конференций в Чехии, Австрии, Италии, Франции, Беларуси.

Во время учебы на 4-м курсе получил предложение работать над задачами обработки речи в компании "Сакрамент". Это перекликалось с научной деятельностью Юрия на кафедре, поэтому он принял предложение.


- Расскажите, в общем, о назначении систем синтеза и распознавания речи? Когда зародилось это направление?

Юрий Чайков: Несмотря на высокую производительность современных компьютеров, они до сих пор не стали бытовыми приборами - надежными, простыми в использовании и не требующими первоначального обучения. Сложность пользовательского интерфейса приводит к тому, что компьютер используется едва ли на десятую часть своих возможностей, выступая в роли печатной машинки или калькулятора (вариант "игровая приставка" не рассматриваем). Использование речевых технологий позволило бы сделать работу с компьютером прозрачной, позволяя пользователю думать над своей задачей, а не над тем, какие кнопки и пункты меню нажать мышкой. Но чтобы это произошло, мало создать синтезатор речи или программу распознавания. Требуется пересмотреть всю идеологию построения программ и пользовательского интерфейса на уровне операционной системы. Возможно, что-то подобное будет реализовано в следующих версиях Windows.

Направление это зародилось довольно давно, чуть ли не с первыми ЭВМ. Но до недавних пор существенного продвижения не наблюдалось - речевые технологии просто не были востребованы. Поколение пользователей, выросшее на командной строке, научилось решать свои задачи определенным образом, и то, что эти же задачи можно решать совершенно иначе, им и в голову не приходит. Примерно так же в свое время излишеством считались мышь, звуковая карта, графический оконный интерфейс. Первыми поняли выгоду новых технологий люди с ослабленным зрением. Затем те, кто уже использует синтезатор речи на мобильном телефоне или PDA. Наравне с ними - операторы телефонной связи, производители высокотехнологичных изделий ("умный дом", "живые" игрушки). Сейчас открывается все больше интересных и неожиданных применений речевым технологиям.

- Какие технологии используются для разработки такого ПО?

Ю.Ч.: Обычное настоящее программирование. Настоящее, потому что сейчас программированием называют все, что попало: и рисование кнопочек в Delphi, и вставку готовых скриптов в веб-странички, и администрирование "1С". Мы программируем алгоритмы. Наши программы должны работать на самых разных платформах - от мобильного телефона и PDA до рабочей станции и многопроцессорного медиа-сервера. От ПО требуется производительность и надежность, способность стабильно работать в многопоточной среде. Для разработки используется Microsoft Visual C++ и средство командной работы Microsoft Visual SourceSafe. Из технологий - OOP, ATL/COM. Стандартом является применение библиотеки STL.

Юрий Пачковский: С научной точки зрения, спектр используемых математических моделей довольно велик и охватывает практически все наиболее распространенные подходы: скрытые Марковские модели, нейронные сети, цифровую фильтрацию, вейвлетный, спектральный, корреляционный и кепстральный анализ.

- На вашем сайте написано, что системы синтеза и распознавания речи можно использовать для call-центров, занимающихся поддержкой клиентов. Я прослушала синтезированные отрывки на вашем сайте - "Ирина", "Вячеслав" и отрывок из "Крестьянских детей" Некрасова. Было жутковато, особенно женский голос... Вы не считаете явную роботоподобность синтезированных голосов препятствием для их широкого коммерческого использования?

Ю.Ч.: Безусловно, естественность звучания является важнейшим критерием качества синтезатора. Мы постоянно работаем над повышением качества, создаем новые алгоритмы, проводим эксперименты с записями дикторов. При этом стараемся оставаться в разумных рамках по требованиям к ресурсам. Так, например, акустическая база для голоса "Ирина" на ПК занимает 4 Мб, в то время как голос фирмы ScanSoft - 50 Мб. На мобильник такой голос уже не положишь.

Неискушенный пользователь ожидает услышать от синтезатора живой натуральный голос. Следует четко понимать, что в настоящее время в полной мере реализовать это невозможно. Не из-за лени разработчиков, а потому, что никто в мире не знает, как это сделать. Те же пользователи, кому синтезатор действительно нужен, проходят короткий период адаптации и далее уже не замечают этой самой роботоподобности.

Ю.П.: В наших системах синтеза используются записи настоящих, живых голосов (отсюда и названия - это имена дикторов), создаются так называемые голосовые базы. Современные технологии и математические модели позволяют добиться качества звучания, близкого к живому человеческому голосу. Однако это приведет к большому размеру голосовых баз на диске. Мы в своих разработках в немалой степени ориентируемся на мобильные устройства, где речевые технологии являются более востребованными, поэтому мы ограничены их ресурсами и производительностью. В данный момент времени работаем над совершенствованием качества звучания наших продуктов и добились определенных успехов - текущая версия 3.х значительно лучшего качества, чем предыдущие. Сейчас мы активизировали свои исследования в области алгоритмов обработки голоса, что в будущем позволит добиться значительных результатов при тех же подходах и объемах голосовых баз.

- После набора в "Яндексе" словосочетания "системы синтеза и распознавания речи" первая десятка результатов - ссылки на вашу компанию. Это следствие хорошей поисковой раскрутки или уникальности вашего бизнеса?

Ю.Ч.: На постсоветском пространстве речевыми технологиями, кроме нас, занимается только "Центр Речевых Технологий" из Санкт-Петербурга. Однако у них другой профиль: звукозапись, шумоочистка, защита телефонных каналов и др., но не синтез речи. Даже если рассматривать всех производителей TTS, русский язык практически не представлен. Разве что Elan Digalo и ScanSoft RealSpeak. Кроме того, среди наших продуктов есть уникальные решения, не имеющие аналогов. Например, система Personal Voice Master, которая позволяет любому пользователю создать модель своего голоса для использования в синтезаторе.

- Вопрос Юрию Пачковскому. Вы закончили факультет радиофизики и электроники. Как так случилось, что начали программировать?

Ю.П.: Программировать начал сравнительно поздно - на 4-м курсе университета. До этого увлекался физикой и иностранными языками. Постоянно самостоятельно занимался английским, закончил двухгодичные курсы немецкого языка при минском окружном доме офицеров. На третьем курсе приобрел компьютер и после того, как наскучило играть, решил заняться чем-нибудь более стоящим и интересным. Дело сразу же нашлось - написать программу, которая перед обращением к компьютеру в локальной сети проверяет его доступность. Кроме этого, все мои друзья и знакомые к тому времени занимались собственными разработками или трудились в IT-компаниях. В общем, попробовал, понравилось, и программирование стало стилем моей жизни.

- Так сложилось, что Вы имеете солидную научную базу. Помогает ли это при программировании?

Ю.П.: Многие задачи, связанные с программированием, на самом деле не нуждаются в каких-то специфических научных знаниях, а требуют всего лишь навыков использования API и механического кодирования. Необходимость в науке возникает, когда приходится моделировать реальные физические процессы при помощи компьютера. В зависимости от задачи может использоваться математика, физика, химия и т.п. В подобных задачах программирование отходит на второй план и становится своеобразным инструментарием, а знание программирования на достаточном уровне подразумевается само собой. Специалист, обладающий как научной теорией, так и практикой программирования, является "специалистом в квадрате", который способен не только создать теоретическую модель, но и реализовать и проверить ее на практике.

- Вопрос Юрию Чайкову: Вы работаете над кандидатской диссертацией. Тема, конечно же, распознавание и синтез речи?

Ю.Ч.: Вы угадали. Тема диссертации действительно связана с разработками нашей компании. Не углубляясь в принятые в научной среде термины, скажу, что она посвящена методам синтеза выразительной, эмоциональной речи с элементами экспрессии.

- Аспирантура и научная деятельность для программиста явление более редкое, чем для физика или математика? Если да, как Вы думаете, почему?

Ю.Ч.: Совершенно с вами согласен. Среди моих знакомых есть люди, которые занимаются анализом изображений (распознавание лиц на видеозаписи, поиск заданных объектов в видеоархивах, определение подлинности документов и ценных бумаг), звуком (идентификация по голосу, автоматический поиск ключевых слов в аудиозаписях), статистической обработкой данных (управление пакетами акций, трейдинг, анализ финансовой надежности). Все они не только талантливые исследователи, но и высококлассные программисты. Нестандартные задачи без тривиального решения, условия нехватки исходных данных или их искажение, жесткие требования по производительности и эффективности - это нормальное состояние в их работе. Все они известны в мире своими публикациями и выступлениями на международных конференциях. С другой стороны, специалисты такого класса, скорее, исключение, чем правило. Большинство "простых" программистов выполняют работу по реализации готовых алгоритмов. Безусловно, перед ними зачастую стоят непростые задачи, но почти всегда их решение - вопрос времени и чтения документации. Понятно, что от научной деятельности это далеко.

- Чему вы научились друг от друга?

Ю.П.: В процессе общения и совместной работы пришлось научиться учитывать мнение оппонента. Возникла необходимость в умении разделять общую задачу на мелкие подзадачи и распределять их выполнение, приходить к компромиссу. Кроме того, каждый из нас специалист в какой-то области, поэтому всегда есть возможность посоветоваться и получить нужную информацию.

Ю.Ч.: Скорее, не друг от друга, а от совместной работы. Я научился тому, что называется "работой в команде". Это касается не только использования специального ПО для совместной работы с исходниками (Visual SourceSafe), но и подхода к работе вообще. Если я делаю программный модуль, который будет использоваться другими, то он должен быть полностью самодостаточным (не требовать специальных сведений об установке, инициализации и использовании) и надежным (должен уметь адекватно реагировать на неполные или неверные исходные данные, не "заваливая" всю систему). Это, кстати, как раз то, чего я ожидаю от бытовой техники: включил и работает. По этой причине в нашей компании принято использовать объектно-ориентированное программирование и технологию COM.

- Есть ли языки более сложные для синтеза и распознавания и менее сложные?

Ю.П.: Да, есть. В первую очередь, для нас, как разработчиков, родным является русский язык, поэтому все остальные кажутся более сложными. Каждый язык сложен по-своему. Мне наиболее близка проблематика морфологии, лексики и семантики языка. Так, например, в русском языке остро стоит задача простановки ударения в слове, которую сложно описать правилами, поэтому существует необходимость в словаре ударений. В других языках ударение падает на конкретный (первый или последний) слог. Зато в русском нет проблем с паузацией, которая определяется знаками препинания. В английском языке все иначе, и приходится пользоваться ключевыми словами для определения границ интонационных фраз.

Ю.Ч.: Вы знаете, что в китайском языке существует 15 способов сказать "спасибо" и все они будут выражать ту или иную степень обиды, в зависимости от интонации?

Основная трудность при работе с китайским языком заключается не в иероглифах, а в тонах произношения, которых в китайском языке четыре (это в языке официальном, а в Китае существуют диалекты, в которых имеется до девяти тонов). Тона произношения имеют смыслоразличительную функцию. Если неправильно употребить тон, то китаец, с которым вы разговариваете, не поймет вас. Это относится ко всем слогам (то есть, каждый слог за редким исключением имеет по четыре тона произношения). А один только слог "ши" в 4-м тоне может обозначать не менее 64 слов, не имеющих отношения друг к другу!

- Ваши статьи публиковались во многих странах мира, вы выступали на международных мероприятиях. Не было ли соблазна попробовать "хлебов" на Западе? Как вы относитесь к довольно массовой эмиграции ИТ-специалистов из Беларуси?

Ю.Ч.: Деньги, комфортные условия работы, социальные бонусы - не единственная причина "утечки мозгов". Так, например, для ученого жизненно необходимо общаться с коллегами, публиковаться в журналах, принимать участие в конференциях. А самое главное - возможность работать над интересной темой. Это, кстати, справедливо и для программиста. Думаю, трудно спорить с тем фактом, что у нас в стране найдется не много заказчиков на разработку ПО - нет потребности в больших проектах. Я сомневаюсь, что в ближайшее время ситуация может существенно измениться. Государство слишком долго уверяло своих специалистов в том, что их труд ничего не стоит. Нельзя ожидать, что годами практикуемая система ценностей будет быстро сменена вместе с правилами игры.

Ю.П.: Я считаю, что это часть общей проблемы миграции специалистов на более оплачиваемые места, которая началась после распада Советского Союза. Это закономерно, так как человек всегда стремится к лучшему. Программирование - одна из областей, в которых Беларусь может составлять конкуренцию другим странам, так как здесь все зависит от способностей одного человека и наличия у него необходимых средств, т.е. компьютера. В последнее время появилась возможность для работы и у нас - так называемое офшорное программирование. Я считаю, что наше государство должно принять все необходимые законодательные меры для развития IT-индустрии в Беларуси, чтобы не растерять молодых талантов. Ведь на самом деле уезжать совсем не хочется, так как здесь мы дома, а на Западе всегда останемся гостями.

- Есть ли у вас какие-то увлечения, или ваш случай - это как раз когда работа и есть главное увлечение?

Ю.П.: Конечно, работа является самым любимым хобби. Иногда даже уходить с нее не хочется. Если есть свободное время, занимаюсь работой дома. Кроме работы, увлекаюсь Формулой-1, снукером, играю в бильярд. Люблю читать, особенно классику и советскую литературу. Стараюсь просматривать новинки кино, не пропускаю ни одного киноформата 4х4. Cчитаю, что это самый замечательный кинопроект в Беларуси. Часто хожу в театр, на местные премьеры и гастроли. Очень нравится смотреть телеканалы Discovery и EuroNews, особенно Science Night по Discovery. Люблю музыку, в особенности электронику. Гордый обладатель полной коллекции самых лучших мультсериалов Мэтта Гроунинга "The Simpsons" и "Futurama". Все свободное время стараюсь провести в кругу семьи.

Ю.Ч.: Я считаю, что любая, даже самая интересная работа не должна вытеснять дом, семью и хобби. Я люблю путешествовать, узнавать новое о странах и людях. Очень люблю море. Увлекаюсь стрельбой из пневматического пистолета. Люблю ходить на концерты, где играют живую музыку: джаз и блюз. Люблю читать, особенно книги белорусских авторов. Ну и, наконец, мое главное "хобби" - любимая жена.

- Какое еще направление вас интересует? Что вы считаете перспективным?

Ю.Ч.: Биометрия. Идентификация человека по его индивидуальным биологическим параметрам. Это уникальный "пароль", который невозможно ни потерять, ни подделать. Я мечтаю о такой системе, когда исчезнет потребность в справках, удостоверениях, разрешениях и прочей бумажной напасти.

Ю.П.: Очень интересует концепция "умного дома", а также разработки, связанные с медициной и безопасностью. Всегда хотел поучаствовать в разработках, которые помогли бы людям, страдающим тем или иным заболеванием, избавиться от своего недуга. Считаю перспективными системы, следящие за состоянием человека, приборами, контролирующими параметры работы организма (такие системы в виде вживляемых чипов уже существуют). Системы контроля не должны вмешиваться в личную жизнь человека, а только помогать избежать ситуаций, опасных для жизни.

- Чей голос вы бы хотели синтезировать один в один?

Ю.П.: Для синтеза подходят спокойные, мелодичные голоса. Мне кажется, мой голос хорошо звучал бы в электронном варианте. Среди наших разработок есть голос, который нравится мне больше всего, однако он еще не доработан. Голоса многих известных дикторов, с точки зрения синтеза речи, очень сложные из-за большой индивидуальности и интонированности голоса. Выражаясь научными терминами, эти голоса обладают большим частотным и амплитудным диапазоном, что затрудняет их обработку.

Ю.Ч.: Какого-то определенного человека, голос которого я хотел бы воссоздать в точности, нет. Наша цель - дать возможность каждому человеку сделать копию своего собственного голоса. Когда это станет возможным, откроются такие применения синтеза, о которых сейчас мы и догадываться не можем.

Нравятся голоса интересные, запоминающиеся и немножко неправильные. Например, голос Сенкевича, который вел передачу "Клуб путешественников".


Блиц

Пять сайтов из закладок

Ю.П.:

Сайт по программированию мобильных телефонов www.newlc.com

Сайт по программированию PDA www.pocketpcdn.com

Сайт о Формуле-1 www.f1-world.ru

Сайт новинок интернета www.nnm.ru

Портал www.tut.by

Ю.Ч.:

www.rsdn.ru

www.koders.com

www.ixbt.com

www.tut.by

www.charter97.org

Самый удачный и оригинальный, на ваш взгляд, проект в белорусском интернете? В мировом?

Ю.П.: В белорусском интернете - www.tut.by. Ответ прост - все в одном. Еще лидер интернет-шоппинга Беларуси - www.shop.by. В мировом - www.sourceforge.net, репозитарий Open Source проектов.

Ю.Ч.: Честно говоря, я не очень-то слежу за развитием интернет-проектов. На новые сайты попадаю по ссылкам из поисковика исключительно для поиска конкретной информации. Из тех проектов, которые оправдали свое создание, я бы назвал www.shop.by у нас и www.sourceforge.net в мировом. Хотя те же www.google.com и www.ebay.com - чем не удачные проекты?

Самое полезное ИТ-изобретение. Почему?

Ю.П.: Открытие полупроводников. Потому что с них все и началось.

Ю.Ч.: Мобильный телефон. Это - свобода.

От чего погибнет интернет?

Ю.П.: Я не верю в то, что интернет погибнет. Общественность не даст, так как все пользователи уже ощутили всю полезность и незаменимость интернет-пространства. Но все-таки среди возможных причин можно назвать тотальный контроль, коммерциализацию и лицензирование.

Ю.Ч.: Он будет развиваться до тех пор, пока не проникнет в каждый уголок нашей жизни. А потом просто исчезнет. В том смысле, что станет настолько естественной вещью, что его перестанут замечать и выделять в нечто самостоятельное.

Материал подготовлен проектом
"Интернет-конкурсы для программистов
www.test-the-best.by"

Версия для печатиВерсия для печати

Номер: 

13 за 2005 год

Рубрика: 

Эксклюзивное интервью
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!
 

Комментарии

Страницы

Аватар пользователя Света
Юрики - молодцы!!! :)
Аватар пользователя Инкогнито
"Имеет ряд печатных работ, посвященных обработке сигналов в системах биометрии, биомедицине, идентификации, индексации и верификации по голосу (международные конференции в Польше, Греции, Тунисе, Италии и Нидерландах). В настоящий момент заканчивает аспирантуру, работает над кандидатской диссертацией." "Автор научных статей по обработке речи и электрокардиограмм, вышедших в трудах международных научных конференций в Чехии, Австрии, Италии, Франции, Беларуси."

Тут два момента. По новому положению для кандидатской надо минимум 3 статьи не в сборниках конференций, а в журналах. Кроме того, у ребят есть научные руководители, не назвать которых, говоря о впечатляющих научных достижениях молодежи, просто как-то странно.

Аватар пользователя Крот
> Кроме того, у ребят есть научные руководители, не назвать которых, говоря о впечатляющих научных достижениях молодежи, просто как-то странно.

Вообще-то речь в статье не о науке и аспирантуре, а о конкретных людях. Кроме руководителей у них могут быть бабушки-дедушки, любимый тренер, знакомый электрик и т.д. Не рассказывать же обо всех, объем статьи ведь ограничен.

Аватар пользователя Taurus
Жаль. Жаль, что ни "Ирину", ни "ВЕчеслава" нам так и не удалось послушать. На этом наше собрание прошу считать закрытым.
Аватар пользователя Виталий Седельник
Юра, привет! :) Прикольно было про тебя прочитать. Кто жена? :) Дети есть?
Аватар пользователя Piligrim
Лет пять назад была подобная статья с этими же действующими лицами. И что характерно, в том же ключе. Многословие, многославие себя, любимых, ну а эффект в общем-то тот же. Правда страшки от этих ребят обрели персональные имена. Теперь можно угодать, кто жуть эту насылает. Появилось и новое - оказывается к этому нужно просто привыкнуть. Наверное. Спорить не буду. Но вот снобисткое и полупрезрительное отношение к остальному прогаммисткому миру выражено чётко. Мы тут самые крутые, а вы там только кнопочки рисуете... Уж и незнаю кто там магистров им присваивал, но просматривается отнюдь не магистерская убогость и узколобость. Спорить даже не стану. Однако и общаемся мы тут благодаря скриптам, кнопочкам и труду сотен программистов, проектирующих и разрабатывающих, а уж потом только программирующих однозначно сложнейшие, а самое главное - гораздо более полезные и нужнейшие системы, в отличии от вот этих потуг...
Аватар пользователя бугага
> вот снобисткое и полупрезрительное

> отношение к остальному прогаммисткому

> миру выражено чётко

да ладно бы к миру, вы бы общались и работали с ними в действии %)

Аватар пользователя Логик
>Направление это зародилось довольно давно, чуть ли не с первыми ЭВМ. Но до недавних пор существенного продвижения не наблюдалось - речевые технологии просто не были востребованы.

Под этими словами какую дату можно поставить? - 1975, 1985, 1995, 2005 ?

И какая будет стоять далее: 2010, 2015... ?

>сейчас программированием называют все, что попало: и рисование кнопочек в Delphi, и вставку готовых скриптов в веб-странички, и администрирование "1С". Мы программируем алгоритмы.

Да, тут снобизм. Интересно, а администриротор "1С" также о работе над алгоритмами ситезирования речи может сказать, что они занимаются этой никому не нужной ерундой уже несколько десятков лет, а воз и ныне там?

Аватар пользователя wolk
Мдааааааа..... Особенно насчёт 1С меня насмешило. И ведь они всерьёз считают, что программирование в 1С - "это так, главное VB знать, а то что у меня с партионным учётом лажа - дык не моя вина, а бухгалтер тупой" (с) не помню чей
Аватар пользователя himka
>Под этими словами какую дату можно поставить? - 1975, 1985, 1995, 2005 ?

>И какая будет стоять далее: 2010, 2015... ?

именно так.

Для развлечения наберите в Яндексе "распознавание голоса и речи" и улыбнитесь: первые четыре ссылки - дежавю.

Страницы