
Подразделение исследований в Microsoft AI анонсировало выпуск трёх новых моделей искусственного интеллекта, способных генерировать текст, речь и изображения. В условиях конкуренции с лидирующими ИИ-лабораториями компания делает ставку на собственную мультимодальную инфраструктуру, чтобы усилить свои позиции.
MAI-Transcribe-1 переводит речь в текст на 25 языках, опережая сервис Azure Fast примерно в 2,5 раза по скорости. MAI-Voice-1 может за одну секунду создать минутную аудиодорожку и поддерживает настройку голосов. MAI-Image-2 отвечает за генерацию визуального контента по текстовому описанию.
По данным TechCrunch над проектом трудится команда MAI Superintelligence — исследовательский блок, занимающийся фундаментальными вопросами передовых ИИ-систем, который с ноября 2025 года возглавляет исполнительный директор подразделения Мустафа Сулейман (Mustafa Suleyman). В новом проекте разработчики делают упор на снижение затрат вычислений по сравнению с аналогами от Google и OpenAI.
Стоимость услуг по расшифровке текста начинается от $0,36 в час, синтез речи оценивается в $22 за 1 миллион символов, а работа с изображениями обойдётся в $5 за 1 миллион входных токенов и $33 за 1 миллион выходных токенов. Все модели уже развёрнуты на платформе Microsoft Foundry, а модели транскрипции и синтеза речи доступны также в MAI Playground. Несмотря на активный выпуск собственных решений, в интервью VentureBeat Сулейман подтвердил приверженность партнёрству с OpenAI, в рамках которого Microsoft уже вложила более $13 млрд.
Компания продолжит использовать модели OpenAI в своих продуктах в рамках многолетнего контракта, применяя ту же стратегию диверсификации, что и при работе с микрочипами.





