Компания OpenAI открыла исходный код GABRIEL — тулкита, который превращает неструктурированный текст, картинки и аудио в числовые данные для исследований. По заявлению авторов, инструмент может заменить армию научных ассистентов, размечающих данные за 15 долларов в час. И делает это в 17500 раз дешевле.
GABRIEL расшифровывается как Generalized Attribute Based Ratings Information Extraction Library. По сути это обертка вокруг GPT API для социологов, экономистов и других ученых. Им нужно превращать качественные данные в количественные.
Узнать подробнее про клуб ShareAI
Например, взять миллион речей политиков и за минуты оценить каждую по шкале популизм от 0 до 100. Или прогнать все статьи через фильтр является ли это технологией. Руками это займет месяцы и обойдется дорого. GABRIEL справляется за минуты.
Выпустила инструмент одна из команд OpenAI. К тулкиту приложили полноценную академическую статью. В ней тестировали GPT как инструмент измерения на больше 1000 датасетах с человеческой разметкой. Результат — модель неотличима от живых разметчиков по точности.
Это не рекламный ход. Рецензируемая работа выполнена совместно с Андреем Шлейфером из Гарварда. Ученый с высоким индексом цитирования не станет рисковать репутацией.
GABRIEL включает множество функций. gabriel.rate оценивает тексты, картинки и аудио по любым атрибутам на шкале от 0 до 100. Хотите измерить токсичность комментариев? Это одна строчка кода.
gabriel.classify делает классификацию по категориям. gabriel.extract вытаскивает структурированные факты. Для каждого продукта можно извлечь компанию, CEO и год основания.
gabriel.merge объединяет датасеты, когда колонки не совпадают. gabriel.deduplicate удаляет дубликаты. Макдональдс, Вкусно и Точка и Мак схлопнутся в одну запись.
gabriel.deidentify заменяет персональные данные реалистичными фейками. Имена, адреса, работодатели подменяются с сохранением маппинга.
gabriel.discover находит, чем отличаются две группы данных. gabriel.ideate генерирует научные теории и фильтрует лучшие.
Разница в цене огромная. Задача — оценить тексты по 10 атрибутам. Для 240 речей State of the Union живой человек за 15 долларов в час возьмет около 2600 долларов. GPT-5-nano сделает это за 14 центов. Для 100 тысяч полных текстов проповедей человек возьмет около 700 тысяч долларов. Самая дорогая модель GPT-5 сделает за 1083 доллара.
Разница от 700 до 17500 раз. Проект, требовавший гранта и года работы, делается за вечер.
Есть минусы. Первый — галлюцинации. Модель может достать ответ из памяти, а не реально читать текст. Второй — shortcut inference. Модель может угадывать атрибут не из текста, а из косвенных признаков.
Третий — тулкит работает только через OpenAI API. Никаких локальных моделей. Данные летят в облако. Для чувствительных исследований это проблема.

