MPEG продолжается

Еще в прошлом году группой экспертов MPEG был анонсирован стандарт MPEG-4, являющий собой логическое развитие уже успевших завоевать немалую популярность в области кодирования и сжатия звука MPEG-1 и MPEG-2. Что же интересного предложат специалисты в новом стандарте?

MPEG-4 audio, базирующийся на MPEG-2 AAC, соединит в себе два способа кодирования звука:синтетическое и естественное. Синтетическая часть состоит из инструментов для обработки символически определенной музыки и речи. В ее состав будут входить системы MIDI и Text-to-Speech (чтение текста голосом). Средства трехмерной локализации звука позволят создавать искусственную звуковую среду, используя как натуральные, так и синтезированные звуки. Стандарт MPEG-4 audio описывает кодирование звука со скоростями передачи от 2 до 64 kbps. Для получения качественного звучания в полном диапазоне скоростей передачи стандартом определены три разных кодека (codec - coder/decoder): параметрический - для низких, Code Excited Linear Predictive (CELP) кодек - для средних, и Time to Frequency (TF) кодек - для высоких скоростей передачи.

В некотором смысле MPEG-4 можно назвать объектно-ориентированным стандартом, ибо здесь вводится понятие аудиообъекта. Аудиообъект - это некая смысловая звуковая сущность, звуковой объект реального мира, например, голос одного или нескольких людей, один или более музыкальных инструментов и т.п. Объект может быть записан одним микрофоном или же несколькими в случае многоканальной записи. Аудио объекты могут группироваться или смешиваться друг с другом, но из одного объекта нельзя выделить некие подобъекты. В связи с этим обозначим возможные применения MPEG-4:

Воспроизведение N-1 аудиообъектов: передается звучание пяти разных инструментов оркестра, а пользователь слушает только 4 из них, предпочитая играть на пятом самому.
Сцены кинофильмов: разные звуки кодируются в разном качестве, каждый на своем количестве каналов, и представляются в виде самостоятельных аудиообъектов, которыми декодер может легко манипулировать.
Многоязыковая международная продукция: чтобы озвучить фильм на нескольких языках, для одной и той же сцены необходимо несколько объектов диалогов, каждый из которых выполнен на своем языке. Декодер выбирает один из них по требованию.

В возможности нового стандарта входит еще и так называемое структурное аудио. Это формат, использующий алгоритмические модели звука для кодирования и распространения звуковых сигналов на сверхнизких скоростях передачи. MPEG-4 стандартизирует алгоритмический язык и некоторые инструменты для структурного кодирования аудиообъектов. С помощью этих инструментов алгоритмы, представляющие точное описание аудиосцены, генерируются специальным дизайнером, передаются по каналу связи и исполняются на терминале, воспроизводя закодированный звук. Такая техника в MPEG-4 позволит передавать синтетическую музыку и звуковые эффекты на скоростях от 0.01 до 10 kbps. Однако на сегодняшний день у Вас не получится закодировать любой звуковой сигнал в формат структурного аудио. Такие преобразования пока вне возможностей современной техники, но являются направлением активных исследований.

Кроме уже описанных прелестей, MPEG-4, как отмечалось, имеет встроенный механизм преобразования текста в речь - так называемый TTS (Text-to-Speech). Стандарт описывает не только воспроизведение текста голосом, но и такие функции, как синтез речи с интонацией и ударениями, скопированными с оригинала; синхронизированный синтез речи с использованием FA-инструментов (Facial Animation - движения лица) (TTS-интерфейс передает фонемы вместе с информацией о длительности и средней высоте звука преобразователю "фонемы-в-параметр FA", который, в свою очередь, предоставляет сгенерированную информацию FA-инструментам, а они рисуют изображение лица, синхронизированное с речью); озвучивание фильмов с помощью текста и некоторой информации о форме губ вместо звука; функции управления воспроизведением (стоп, продолжить, прокрутка вперед и назад) без нарушения ударений даже в приложениях с FA или фильмами. MPEG-4 также предусматривает многоязыковую поддержку в TTS посредством кода, определяющего язык для синтеза. В настоящее время только 25 стран-членов ISO могут разработать принципы синтеза своего языка для включения в стандарт, однако разработчики предусмотрели резервные 8 бит для других стран, которые пожелают иметь кодировку своего языка в стандарте. Для синтеза речи TTS используется международный фонетический алфавит (International Phonetic Alphabet - IPA), в котором представлены практически все возможные звуки человеческой речи (фонемы). Таким образом, комбинируя эти звуки, можно "говорить" на любом языке мира.

Скорости передачи для системы синтеза речи составляют 2-24 kbps в режиме с частотой дискретизации 8 кГц и 14-24 - для 16 кГц. Такие низкие скорости предоставляют прекрасную возможность для голосовых чатов в Internet - даже если разговаривают 10 человек одновременно, один терминал должен принимать всего лишь 18 килобит в секунду.

Типичные применения системы TTS стандарта MPEG-4 audio: искусственный "сказочник", синтезатор речи для аватаров в различных приложениях виртуальной реальности, голосовая газета, озвучивание анимаций, звуковое общение по Internet и тому подобные вещи.

Что же, MPEG-4 обещает быть еще более "навороченным", чем его предшественники, и предлагает много нового в области кодирования звука. Однако насколько хорош будет новый стандарт в деле, мы, возможно, сможем увидеть уже к концу этого года.

Андрей ВОРОШКОВ