Microsoft представила собственную линейку моделей для речи, голоса и изображений

Microsoft анонсировала три новые ИИ-модели: MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2. Эти модели, разработанные полностью внутри компании, направлены на преобразование речи в текст, генерацию голоса и создание изображений. Они уже доступны через платформы Microsoft Foundry и MAI Playground.

MAI-Transcribe-1 — система преобразования речи в текст, которая достигает минимального среднего уровня ошибок слов (Word Error Rate) на тесте FLEURS для 25 языков. Модель превосходит OpenAI Whisper-large-v3 и Google Gemini 3.1 Flash по большинству языков. Она поддерживает форматы MP3, WAV и FLAC и работает в 2,5 раза быстрее предыдущих решений Microsoft.

MAI-Voice-1 — модель, преобразующая текст в речь и способная генерировать 60 секунд естественного звучания за одну секунду. Она поддерживает создание пользовательских голосов на основе нескольких секунд аудио. Стоимость использования составляет $22 за 1 миллион символов.

MAI-Image-2 — обновлённая модель генерации изображений, которая работает в два раза быстрее предыдущей версии. Она уже используется в Bing и PowerPoint. Стоимость составляет $5 за 1 миллион токенов текста и $33 за 1 миллион токенов изображений.

Иллюстрация: Nano Banana

Эти модели стали возможны благодаря пересмотру контракта с OpenAI, который позволил Microsoft самостоятельно разрабатывать модели. Несмотря на это, партнёрство с OpenAI остаётся в силе до 2032 года.

Модели были разработаны небольшими командами: каждая из них насчитывает менее 10 человек.

Компания позиционирует свои модели как доступные и эффективные решения для предприятий. MAI-Transcribe-1 уже тестируется в Microsoft Teams и Copilot, а MAI-Image-2 используется в рекламных кампаниях крупных компаний, таких как WPP.

В будущем Microsoft планирует разработку универсальных языковых моделей, способных конкурировать с ChatGPT. Компания стремится к полной независимости в ИИ, создавая собственные вычислительные кластеры и инфраструктуру для поддержки суперинтеллекта.

©  iXBT