Инженер NVIDIA признал превосходство DeepSeek R1 в открытом ИИ

Джим Фан, старший инженер по исследованиям NVIDIA, выступил с неожиданно высокой оценкой китайской модели DeepSeek R1. Отметив её выдающийся вклад в развитие открытого ИИ. Технический анализ Фана выявил несколько революционных достижений DeepSeek R1. Модель использует «холодный старт» на основе чистого обучения с подкреплением, что напоминает прорыв AlphaZero в освоении Go, сёги и шахмат с нуля.

Ситуация привлекла особое внимание после того, как Фан, бывший первым стажером OpenAI и обладатель степени Ph.D. Стэнфордского университета, заявил: «Мы живем в timeline, где не американская компания поддерживает изначальную миссию OpenAI – действительно открытые, передовые исследования, расширяющие возможности для всех. Это кажется нелогичным. Но самый неожиданный исход часто оказывается наиболее вероятным».

Примечательным аспектом стал алгоритм GRPO, разработанный DeepSeek в феврале 2024 года. Он убирает критическую сеть из PPO и использует среднее вознаграждение от множества образцов, что существенно снижает использование памяти. Кроме того, исследователи отметили интересное эмергентное свойство: время «размышления» модели стабильно увеличивается по мере обучения.

Особое внимание привлек инновационный механизм вознаграждения, использующий правила жесткого кодирования вместо обучаемых моделей вознаграждения.

Фан особо подчеркнул новую парадигму технологического влияния: «Влияние может достигаться как через ‘внутреннее достижение AGI’ или мифические названия вроде ‘Project Strawberry’, так и простым раскрытием алгоритмов и графиков обучения». Этот подход подчеркивает важность открытости и прозрачности в развитии ИИ.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.