Patronus AI запускает мультимодальную языковую модель-судью

Компания Patronus AI анонсировала запуск того, что она называет первой в отрасли мультимодальной языковой моделью-судьей (MLLM-as-a-Judge). Инструмента, разработанного для оценки ИИ-систем, которые интерпретируют изображения и генерируют текст. Новая технология оценки призвана помочь разработчикам выявлять и устранять галлюцинации и проблемы с надежностью в мультимодальных ИИ-приложениях.

Etsy уже внедрил эту технологию для проверки точности подписей к изображениям товаров на своей торговой площадке. «Мы невероятно рады объявить, что Etsy стал одним из наших первых клиентов», — заявил Ананд Каннаппан, сооснователь Patronus AI.

«У них сотни миллионов товаров на их онлайн-маркетплейсе рукодельных и винтажных продуктов, которые люди создают по всему миру. Одна из задач, которую их ИИ-команда хотела решить с помощью генеративного ИИ — это возможность автоматически генерировать подписи к изображениям и гарантировать, что при масштабировании на всю их глобальную пользовательскую базу создаваемые подписи будут безупречно точными».

Особый интерес представляет выбор Patronus в пользу Google Gemini вместо OpenAI в качестве базовой модели для своего первого MLLM-судьи под названием Judge-Image. Этому решению предшествовало масштабное исследование, сравнивающее Gemini с альтернативами, такими как GPT-4V от OpenAI.

«Мы склонны считать, что у GPT-4V наблюдалась небольшая склонность к эгоцентричности, тогда как Gemini была менее предвзята в этих аспектах и демонстрировала более беспристрастный подход к оценке различных пар ввода-вывода», — пояснил Каннаппан. «Это проявлялось в равномерном распределении оценок по различным источникам, которые они анализировали».

 

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.