Опенсорс-модель Light-R1-32B стоит $1000 и превосходит DeepSeek

Команда исследователей представила Light-R1-32B — новую ИИ-модель с открытым исходным кодом. Оптимизированную для решения сложных математических задач. Эта 32-миллиардная параметрическая модель превосходит производительность аналогичных по размеру и даже более крупных моделей с открытым исходным кодом, таких как DeepSeek-R1-Distill-Llama-70B и DeepSeek-R1-Distill-Qwen-32B, на независимом тесте AIME (American Invitational Mathematics Examination).

Этот тест содержит 15 математических задач, разработанных для чрезвычайно продвинутых студентов, и имеет ограничение по времени в 3 часа для пользователей-людей. Невероятно, но исследователи завершили обучение модели за 6 часов на 12 графических процессорах Nvidia H800 при оценочной общей стоимости всего $1000. Это делает Light-R1-32B одним из самых доступных и практичных подходов к разработке высокопроизводительных специализированных математических ИИ-моделей. Однако важно помнить, что модель была обучена на варианте Qwen 2.5-32B-Instruct от Alibaba с открытым исходным кодом, который, как предполагается, имел гораздо более высокие первоначальные затраты на обучение.

Разработанная командой в составе Лян Вэнь, Фэнжуй Сяо, Синь Хэ, Юнкэ Цай, Ци Ань, Чжэньюй Дуань, Иминь Ду, Цзюньчэнь Лю, Лифу Тан, Сяовэй Лю, Хаошэн Цзоу, Юнчао Дэн, Шоушэн Цзя и Сяннчжэн Чжан, модель превосходит предыдущие открытые альтернативы на конкурентных математических тестах.

Вместе с моделью команда опубликовала наборы данных для обучения, сценарии обучения и инструменты оценки, предоставляя прозрачную и доступную основу для создания ИИ-моделей, ориентированных на математику.

Модель Light-R1-32B разработана для решения сложных математических задач, особенно в рамках теста AIME. Она была обучена на основе Qwen2.5-32B-Instruct, начиная с модели без рассуждений с длинной цепочкой мысли (COT). Команда применила обучение с учителем на основе учебной программы (SFT) и оптимизацию прямых предпочтений (DPO) для улучшения её способностей к решению задач.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.