Исследователи создали мощную модель ИИ на 32 млрд параметров всего за $450

Команда NovaSky из лаборатории Sky Computing Калифорнийского университета в Беркли представила Sky-T1-32B-Preview. Это — первая полностью открытая модель ИИ с продвинутыми возможностями рассуждения.

Революционным стал не только открытый код и данные для обучения, но и стоимость разработки — всего $450.

«Это демонстрирует возможность воспроизвести высокоуровневые возможности рассуждения доступно и эффективно», — отмечают исследователи.

Для сравнения: недавно выпущенная модель Palmyra X 004 от компании Writer обошлась в $700 000, хотя и это значительно меньше традиционных миллионных бюджетов.

Sky-T1, содержащая 32 миллиарда параметров, была обучена за 19 часов на восьми GPU Nvidia H100. Команда использовала модель QwQ-32B-Preview от Alibaba для генерации начальных данных, а затем GPT-4o-mini от OpenAI для их оптимизации.

Результаты впечатляют: Sky-T1 превосходит раннюю версию o1 от OpenAI в тестах MATH500 (олимпиадная математика) и LiveCodeBench (программирование), хотя и уступает в GPQA-Diamond (вопросы уровня PhD по физике, биологии и химии).

Хотя текущая версия o1 и ожидаемая o3 от OpenAI мощнее, команда NovaSky продолжит разработку: «Мы сосредоточимся на создании более эффективных моделей, сохраняющих сильные способности к рассуждению, и исследовании передовых методов повышения эффективности и точности».

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.