OpenAI выпустила GABRIEL - инструмент для автоматической разметки данных

Компания OpenAI открыла исходный код GABRIEL — тулкита, который превращает неструктурированный текст, картинки и аудио в числовые данные для исследований. По заявлению авторов, инструмент может заменить армию научных ассистентов, размечающих данные за 15 долларов в час. И делает это в 17500 раз дешевле.

GABRIEL расшифровывается как Generalized Attribute Based Ratings Information Extraction Library. По сути это обертка вокруг GPT API для социологов, экономистов и других ученых. Им нужно превращать качественные данные в количественные.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Например, взять миллион речей политиков и за минуты оценить каждую по шкале популизм от 0 до 100. Или прогнать все статьи через фильтр является ли это технологией. Руками это займет месяцы и обойдется дорого. GABRIEL справляется за минуты.

Выпустила инструмент одна из команд OpenAI. К тулкиту приложили полноценную академическую статью. В ней тестировали GPT как инструмент измерения на больше 1000 датасетах с человеческой разметкой. Результат — модель неотличима от живых разметчиков по точности.

Это не рекламный ход. Рецензируемая работа выполнена совместно с Андреем Шлейфером из Гарварда. Ученый с высоким индексом цитирования не станет рисковать репутацией.

GABRIEL включает множество функций. gabriel.rate оценивает тексты, картинки и аудио по любым атрибутам на шкале от 0 до 100. Хотите измерить токсичность комментариев? Это одна строчка кода.

gabriel.classify делает классификацию по категориям. gabriel.extract вытаскивает структурированные факты. Для каждого продукта можно извлечь компанию, CEO и год основания.

gabriel.merge объединяет датасеты, когда колонки не совпадают. gabriel.deduplicate удаляет дубликаты. Макдональдс, Вкусно и Точка и Мак схлопнутся в одну запись.

gabriel.deidentify заменяет персональные данные реалистичными фейками. Имена, адреса, работодатели подменяются с сохранением маппинга.

gabriel.discover находит, чем отличаются две группы данных. gabriel.ideate генерирует научные теории и фильтрует лучшие.

Разница в цене огромная. Задача — оценить тексты по 10 атрибутам. Для 240 речей State of the Union живой человек за 15 долларов в час возьмет около 2600 долларов. GPT-5-nano сделает это за 14 центов. Для 100 тысяч полных текстов проповедей человек возьмет около 700 тысяч долларов. Самая дорогая модель GPT-5 сделает за 1083 доллара.

Разница от 700 до 17500 раз. Проект, требовавший гранта и года работы, делается за вечер.

Есть минусы. Первый — галлюцинации. Модель может достать ответ из памяти, а не реально читать текст. Второй — shortcut inference. Модель может угадывать атрибут не из текста, а из косвенных признаков.

Третий — тулкит работает только через OpenAI API. Никаких локальных моделей. Данные летят в облако. Для чувствительных исследований это проблема.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

OpenAI выпустила GABRIEL — инструмент для автоматической разметки данных