Patronus AI запускает мультимодальную языковую модель-судью

Компания Patronus AI анонсировала запуск того, что она называет первой в отрасли мультимодальной языковой моделью-судьей (MLLM-as-a-Judge). Инструмента, разработанного для оценки ИИ-систем, которые интерпретируют изображения и генерируют текст. Новая технология оценки призвана помочь разработчикам выявлять и устранять галлюцинации и проблемы с надежностью в мультимодальных ИИ-приложениях.

Etsy уже внедрил эту технологию для проверки точности подписей к изображениям товаров на своей торговой площадке. “Мы невероятно рады объявить, что Etsy стал одним из наших первых клиентов”, — заявил Ананд Каннаппан, сооснователь Patronus AI.

“У них сотни миллионов товаров на их онлайн-маркетплейсе рукодельных и винтажных продуктов, которые люди создают по всему миру. Одна из задач, которую их ИИ-команда хотела решить с помощью генеративного ИИ — это возможность автоматически генерировать подписи к изображениям и гарантировать, что при масштабировании на всю их глобальную пользовательскую базу создаваемые подписи будут безупречно точными”.

Особый интерес представляет выбор Patronus в пользу Google Gemini вместо OpenAI в качестве базовой модели для своего первого MLLM-судьи под названием Judge-Image. Этому решению предшествовало масштабное исследование, сравнивающее Gemini с альтернативами, такими как GPT-4V от OpenAI.

“Мы склонны считать, что у GPT-4V наблюдалась небольшая склонность к эгоцентричности, тогда как Gemini была менее предвзята в этих аспектах и демонстрировала более беспристрастный подход к оценке различных пар ввода-вывода”, — пояснил Каннаппан. “Это проявлялось в равномерном распределении оценок по различным источникам, которые они анализировали”.