OpenAI сделала безумную штуку с их новой моделью o1. Теперь её можно обучать на крошечных датасетах. Им хватает всего 20 примеров, чтобы превратить o1 в эксперта в узкой области. Не тысячи, не миллионы – всего 20. Загружаете пару десятков решённых юридических кейсов или научных задач – и ваша модель уже «соображает» в теме как профессионал.
OpenAI представила расширение исследовательской программы по reinforcement fine-tuning (RFT). И это не просто очередное обновление – мы наблюдаем серьёзный прорыв в том, как ИИ может стать экспертом в узкоспециализированных областях.
Большинство современных ИИ-моделей можно описать как «широкие, но неглубокие» – они знают понемногу обо всём, или, как говорят эксперты, «на милю в длину и на дюйм в глубину». RFT позволяет превратить такую модель в настоящего эксперта, например, в области медицины или юриспруденции, делая её «глубокой» в конкретной нише.
Процесс RFT состоит из пяти ключевых этапов:
1. Подготовка датасета и форматирование его в структурированный формат (например, JSONL);
2. Создание системы оценивания – автоматической или с участием человека;
3. Сам процесс reinforcement fine-tuning с постепенной корректировкой через награды и штрафы;
4. Валидация на отложенной части данных;
5. Оптимизация и развёртывание с последующим мониторингом.
Система использует от нескольких десятков до тысяч высококачественных задач с эталонными ответами. При этом можно использовать как специальную программу для оценки результатов, так и другую ИИ-модель в качестве оценщика.
Особенно интересно использование «цепочечного мышления» (chain-of-thought reasoning, CoT). ИИ может пробовать разные подходы к решению задачи, получая оценки за каждый из них. Это позволяет системе не просто запоминать правильные ответы, а учиться правильно рассуждать.
Важный момент: модель можно «облегчить», убрав ненужные для конкретной области знания. Например, если ИИ специализируется на медицинской диагностике, ему необязательно знать об Аврааме Линкольне. Это позволит запускать модель локально на смартфонах, без необходимости постоянного подключения к облаку.
OpenAI сообщает об успешных результатах в праве, страховании, здравоохранении, финансах и инженерии. Особенно эффективен метод там, где существуют объективно «правильные» ответы, с которыми согласится большинство экспертов.
Система оценивания работает по шкале от 0 до 1, где промежуточные оценки (например, 0.60) показывают частично верные ответы. Эксперты уже обсуждают следующий шаг – оценивание не только конечных ответов, но и самого процесса рассуждений ИИ, что может сделать обучение ещё эффективнее. Некоторые предлагают назвать такой улучшенный метод SRFT или SURFT (Super RFT).
До этого OpenAI использовала метод supervised fine-tuning (SFT), который в основном настраивал стиль и тон ответов ИИ. Новый метод RFT идёт дальше, позволяя действительно углубить знания системы в конкретных областях.
Компания планирует сделать эту технологию доступной для широкой публики к началу 2025 года. Пока же OpenAI приглашает к участию исследовательские институты, университеты и предприятия, особенно те, где узкие специалисты выполняют сложные задачи и могли бы получить пользу от ИИ-ассистента.
Как отметили в официальном блоге OpenAI 6 декабря 2024 года: «Эта новая техника настройки моделей позволяет разработчикам кастомизировать наши модели с помощью десятков или тысяч высококачественных задач и оценивать ответы модели с помощью предоставленных эталонных ответов».