Microsoft выпустила три новые модели ИИ для работы с текстом и медиа

Компания Microsoft представила три модели ИИ, способные работать с текстом, голосом и изображениями в единой системе.
Автор: Алексей Новиков , Редактор Фото: Generated by DALL·E
В мире

Компания Microsoft объявила о запуске сразу трёх моделей искусственного интеллекта. Новые разработки направлены на расширение возможностей работы с разными типами данных и развитие собственной технологической базы, отмечает «Центральная Служба Новостей».

Модели ориентированы на одновременную обработку текста, аудио и изображений. В компании рассматривают это как шаг к созданию единой системы решений, которая будет дополнять существующее сотрудничество с OpenAI.

Разработка велась в подразделении Microsoft AI, сформированном в конце 2025 года. Руководство направлением осуществляет Мустафа Сулейман.

Первая модель, MAI-Transcribe-1, предназначена для распознавания речи: она поддерживает 25 языков и, по оценке компании, работает быстрее предыдущих решений Azure. Вторая, MAI-Voice-1 позволяет генерировать аудио и способна создавать звуковые фрагменты длительностью до одной минуты за короткое время и формировать пользовательские голоса. А MAI-Image-2 отвечает за генерацию изображений и видео.

Ранее технологии тестировались в среде MAI Playground. Теперь доступ к ним открыт через платформу Microsoft Foundry. При этом часть инструментов остаётся доступной в тестовой среде.

В компании сообщают, что основной акцент делается на практическое применение технологий. При разработке учитываются реальные задачи пользователей и сценарии использования цифровых инструментов.

Microsoft продолжает развивать направление искусственного интеллекта, сочетая собственные решения с партнёрскими проектами. Общий объём инвестиций в эту сферу превысил 13 млрд долларов.