Джим Фан, старший инженер по исследованиям NVIDIA, выступил с неожиданно высокой оценкой китайской модели DeepSeek R1. Отметив её выдающийся вклад в развитие открытого ИИ. Технический анализ Фана выявил несколько революционных достижений DeepSeek R1. Модель использует «холодный старт» на основе чистого обучения с подкреплением, что напоминает прорыв AlphaZero в освоении Go, сёги и шахмат с нуля.
Ситуация привлекла особое внимание после того, как Фан, бывший первым стажером OpenAI и обладатель степени Ph.D. Стэнфордского университета, заявил: «Мы живем в timeline, где не американская компания поддерживает изначальную миссию OpenAI – действительно открытые, передовые исследования, расширяющие возможности для всех. Это кажется нелогичным. Но самый неожиданный исход часто оказывается наиболее вероятным».
Примечательным аспектом стал алгоритм GRPO, разработанный DeepSeek в феврале 2024 года. Он убирает критическую сеть из PPO и использует среднее вознаграждение от множества образцов, что существенно снижает использование памяти. Кроме того, исследователи отметили интересное эмергентное свойство: время «размышления» модели стабильно увеличивается по мере обучения.
Особое внимание привлек инновационный механизм вознаграждения, использующий правила жесткого кодирования вместо обучаемых моделей вознаграждения.
Фан особо подчеркнул новую парадигму технологического влияния: «Влияние может достигаться как через ‘внутреннее достижение AGI’ или мифические названия вроде ‘Project Strawberry’, так и простым раскрытием алгоритмов и графиков обучения». Этот подход подчеркивает важность открытости и прозрачности в развитии ИИ.