Apple работает над Manzano — собственной нейросетью для изображений

Новая модель объединяет анализ и генерацию картинок

Apple разрабатывает мультимодальную модель искусственного интеллекта Manzano, которая способна анализировать и генерировать изображения. Это направление считается одним из самых сложных в индустрии, где лидируют OpenAI GPT-4o и Google Gemini 2.5 Flash Image Generation. В основе Manzano лежит гибридный токенизатор, объединяющий анализ и генерацию, что снижает конфликты между задачами и позволяет модели работать одинаково стабильно в разных сценариях, пишет PEPELAC.NEWS.

Архитектура включает унифицированную языковую модель и отдельный модуль для декодирования изображений. Подготовлены версии с разным числом параметров — от 900 миллионов до 35 миллиардов, что даёт возможность работать как с простыми картинками, так и с высокодетализированными. Обучение проходило на 1,6 трлн токенов, включая миллиарды пар «текст-изображение» и «изображение-текст».

В тестах Manzano показала хорошие результаты при анализе графиков, документов и сложных визуальных задач, а также справилась с генерацией в разных стилях и реконструкцией объектов. Хотя Manzano пока уступает лидерам рынка, её появление демонстрирует стратегический курс Apple на снижение зависимости от сторонних разработчиков и укрепление собственных компетенций в ИИ.

В iOS 26 компания продолжит использовать OpenAI GPT-5, но параллельная работа над Manzano может в перспективе вывести Apple в число ключевых игроков рынка мультимодального искусственного интеллекта.