Как 3,8-миллиардная модель от Patronus AI обошла GPT-4o-mini от OpenAI

Знаете, как бывает — размер не всегда имеет значение. Бывшие исследователи Meta AI и Meta Reality Labs создали нечто поистине впечатляющее — компактную open-source модель Glider, которая умудряется превосходить гораздо более «тяжеловесных» конкурентов, включая GPT-4o-mini от OpenAI.

Представьте себе: у вас есть огромный промышленный конвейер для контроля качества продукции (это как GPT-4), а тут появляется компактный, но невероятно точный прибор, который делает ту же работу, причем зачастую лучше.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Именно такой прорыв совершила команда Patronus AI, выпустив модель всего с 3,8 миллиардами параметров.

«Всё, что мы делаем в Patronus, направлено на то, чтобы сделать мощные и надежные инструменты оценки ИИ доступными для разработчиков и всех, кто использует языковые модели или разрабатывает новые LM-системы», — поделился Ананд Каннаппан, CEO и соучредитель Patronus AI. И похоже, им это действительно удалось.

Самое интересное здесь даже не в том, что модель маленькая — а в том, как она работает. Представьте себе опытного редактора, который не просто говорит «это хорошо» или «это плохо», а подробно объясняет свое мнение, выделяет конкретные места в тексте и приводит четкие аргументы.

Именно так работает Glider — она не просто оценивает, а детально объясняет свои решения через маркированные списки и подсветку текста.

Даршан Дешпанде, ведущий исследователь проекта, отмечает: «Сейчас у нас много больших языковых моделей, выступающих в роли судей, но мы не знаем, какая из них лучше подходит для конкретной задачи. В нашей работе мы показали несколько важных достижений: мы обучили модель, которая может работать на обычном устройстве, использует всего 3,8 миллиарда параметров и предоставляет качественные цепочки рассуждений».

А теперь о скорости — и тут Glider тоже впечатляет. Модель способна выдавать результаты меньше чем за секунду, при этом не уступая системам, которые в 17 раз больше неё.

Это как сравнивать спортивный автомобиль с огромным грузовиком — и обнаружить, что первый не только быстрее, но и может перевезти столько же груза.

Особенно впечатляет многозадачность Glider. Модель способна одновременно оценивать множество аспектов ИИ-генерации: точность, безопасность, связность и тон — всё это анализируется за один проход. При этом, хотя обучение проводилось преимущественно на английском языке, модель сохранила способность работать с разными языками.

«Когда вы работаете в реальном времени, задержка должна быть минимальной, — поясняет Каннаппан. — Наша модель обычно отвечает меньше чем за секунду, особенно когда используется через наш продукт».

Отдельного внимания заслуживает подход к приватности. В мире, где конфиденциальность данных становится всё более критичной, Glider предлагает элегантное решение — благодаря своему компактному размеру, модель может работать непосредственно на устройстве пользователя.

«Клиентам нужны локальные модели, потому что они не могут отправлять свои конфиденциальные данные в OpenAI или Anthropic», — подчеркивает Дешпанде. При этом открытый исходный код позволяет организациям разворачивать модель на собственной инфраструктуре и настраивать под свои конкретные нужды.

Впечатляет и масштаб обучения модели — она была натренирована на 183 различных метриках оценки across 685 доменов. От базовых параметров вроде точности до таких нюансов, как креативность и этические аспекты — Glider охватывает весь спектр возможных задач оценки.

Patronus AI, основанная экспертами по машинному обучению из Meta AI и Meta Reality Labs, уже позиционирует себя как лидер в технологиях оценки ИИ. Компания предлагает платформу для автоматизированного тестирования и обеспечения безопасности больших языковых моделей, а Glider становится их последним достижением в деле демократизации сложных инструментов оценки ИИ.

Предварительные тесты показывают, что Glider достигает передовых результатов по нескольким стандартным метрикам, при этом обеспечивая более прозрачные объяснения, чем существующие решения.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Как 3,8-миллиардная модель от Patronus AI обошла GPT-4o-mini от OpenAI