Как 3,8-миллиардная модель от Patronus AI обошла GPT-4o-mini от OpenAI

Знаете, как бывает — размер не всегда имеет значение. Бывшие исследователи Meta AI и Meta Reality Labs создали нечто поистине впечатляющее — компактную open-source модель Glider, которая умудряется превосходить гораздо более «тяжеловесных» конкурентов, включая GPT-4o-mini от OpenAI.

Представьте себе: у вас есть огромный промышленный конвейер для контроля качества продукции (это как GPT-4), а тут появляется компактный, но невероятно точный прибор, который делает ту же работу, причем зачастую лучше.

Именно такой прорыв совершила команда Patronus AI, выпустив модель всего с 3,8 миллиардами параметров.

«Всё, что мы делаем в Patronus, направлено на то, чтобы сделать мощные и надежные инструменты оценки ИИ доступными для разработчиков и всех, кто использует языковые модели или разрабатывает новые LM-системы», — поделился Ананд Каннаппан, CEO и соучредитель Patronus AI. И похоже, им это действительно удалось.

Самое интересное здесь даже не в том, что модель маленькая — а в том, как она работает. Представьте себе опытного редактора, который не просто говорит «это хорошо» или «это плохо», а подробно объясняет свое мнение, выделяет конкретные места в тексте и приводит четкие аргументы.

Именно так работает Glider — она не просто оценивает, а детально объясняет свои решения через маркированные списки и подсветку текста.

Даршан Дешпанде, ведущий исследователь проекта, отмечает: «Сейчас у нас много больших языковых моделей, выступающих в роли судей, но мы не знаем, какая из них лучше подходит для конкретной задачи. В нашей работе мы показали несколько важных достижений: мы обучили модель, которая может работать на обычном устройстве, использует всего 3,8 миллиарда параметров и предоставляет качественные цепочки рассуждений».

А теперь о скорости — и тут Glider тоже впечатляет. Модель способна выдавать результаты меньше чем за секунду, при этом не уступая системам, которые в 17 раз больше неё.

Это как сравнивать спортивный автомобиль с огромным грузовиком — и обнаружить, что первый не только быстрее, но и может перевезти столько же груза.

Особенно впечатляет многозадачность Glider. Модель способна одновременно оценивать множество аспектов ИИ-генерации: точность, безопасность, связность и тон — всё это анализируется за один проход. При этом, хотя обучение проводилось преимущественно на английском языке, модель сохранила способность работать с разными языками.

«Когда вы работаете в реальном времени, задержка должна быть минимальной, — поясняет Каннаппан. — Наша модель обычно отвечает меньше чем за секунду, особенно когда используется через наш продукт».

Отдельного внимания заслуживает подход к приватности. В мире, где конфиденциальность данных становится всё более критичной, Glider предлагает элегантное решение — благодаря своему компактному размеру, модель может работать непосредственно на устройстве пользователя.

«Клиентам нужны локальные модели, потому что они не могут отправлять свои конфиденциальные данные в OpenAI или Anthropic», — подчеркивает Дешпанде. При этом открытый исходный код позволяет организациям разворачивать модель на собственной инфраструктуре и настраивать под свои конкретные нужды.

Впечатляет и масштаб обучения модели — она была натренирована на 183 различных метриках оценки across 685 доменов. От базовых параметров вроде точности до таких нюансов, как креативность и этические аспекты — Glider охватывает весь спектр возможных задач оценки.

Patronus AI, основанная экспертами по машинному обучению из Meta AI и Meta Reality Labs, уже позиционирует себя как лидер в технологиях оценки ИИ. Компания предлагает платформу для автоматизированного тестирования и обеспечения безопасности больших языковых моделей, а Glider становится их последним достижением в деле демократизации сложных инструментов оценки ИИ.

Предварительные тесты показывают, что Glider достигает передовых результатов по нескольким стандартным метрикам, при этом обеспечивая более прозрачные объяснения, чем существующие решения.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.