HuggingFace воспроизвела DeepSeek-R1: первый этап завершён

HuggingFace выпустила открытое воспроизведение DeepSeek-R1 — мощной модели рассуждений, которую китайская компания DeepSeek представила в начале 2025 года. Проект называется open-r1, его код доступен на GitHub.

Первый этап уже завершён. Команда опубликовала датасет Mixture-of-Thoughts — 350 тысяч проверенных цепочек рассуждений, полученных дистилляцией из оригинального DeepSeek-R1. Датасет охватывает математику, программирование и науку.

На его основе обучена модель OpenR1-Distill-7B. На тестах AIME 2024 она набирает 52.7 балла против 51.3 у оригинальной DeepSeek-R1-Distill-Qwen-7B. По остальным бенчмаркам картина неоднородна: MATH-500 — 89.0 против 93.5, GPQA Diamond — 52.8 против 52.4, LiveCodeBench v5 — 39.4 против 37.4.

Ещё раньше команда выпустила датасет CodeForces-CoTs: 10 тысяч задач по спортивному программированию и 100 тысяч решений, дистиллированных из R1. Модель на 7 миллиардов параметров, обученная на этих данных, обгоняет Claude 3.7 Sonnet на олимпиадном бенчмарке IOI24. Версия на 32 миллиарда параметров превосходит сам R1.

Впереди ещё два этапа. Второй — воспроизвести чистый RL-пайплайн, которым DeepSeek обучал модель R1-Zero с нуля. Третий — показать, что можно пройти весь путь от базовой модели до RL-настройки через многоэтапное обучение.

Смысл проекта в том, чтобы убрать «чёрный ящик» из процесса обучения таких моделей. DeepSeek опубликовал технический отчёт, но не весь код и данные. Open-R1 заполняет именно эти пробелы — чтобы любой исследователь мог воспроизвести результат и строить поверх него.