
Корпорация Microsoft представила собственную модель для генерации изображений MAI-Image-1, которая является первой крупной text-to-image системой, полностью созданной внутри компании без участия OpenAI. Модель уже доступна пользователям в сервисе Bing Image Creator и мобильных приложениях Bing. По результатам тестов на платформе LMArena, MAI-Image-1 вошла в десятку лучших генераторов изображений, демонстрируя стабильное качество и точную передачу сложных текстовых описаний.
Ключевое отличие модели заключается в ее оптимизации для голосовых и визуальных ассистентов Microsoft, в частности, она интегрирована в Copilot Audio Expressions для визуализации историй, рассказанных голосом. MAI-Image-1 построена на усовершенствованной архитектуре Diffusion XL и обучена на мультиязычном наборе данных. Это позволяет ей поддерживать запросы на десятках языков и стать основой для будущих мультимодальных продуктов компании.
На данный момент модель доступна во всех регионах, где функционируют Bing Image Creator и Copilot Labs, за исключением стран Европейского союза. Запуск на территории ЕС отложен, поскольку Microsoft ожидает получения окончательного одобрения от местных регуляторных органов. Это подчеркивает возрастающее влияние правового регулирования на развертывание новых ИИ-технологий на глобальном рынке.