Джим Фан, старший инженер по исследованиям NVIDIA, выступил с неожиданно высокой оценкой китайской модели DeepSeek R1. Отметив её выдающийся вклад в развитие открытого ИИ. Технический анализ Фана выявил несколько революционных достижений DeepSeek R1. Модель использует «холодный старт» на основе чистого обучения с подкреплением, что напоминает прорыв AlphaZero в освоении Go, сёги и шахмат с нуля.
Ситуация привлекла особое внимание после того, как Фан, бывший первым стажером OpenAI и обладатель степени Ph.D. Стэнфордского университета, заявил: «Мы живем в timeline, где не американская компания поддерживает изначальную миссию OpenAI – действительно открытые, передовые исследования, расширяющие возможности для всех. Это кажется нелогичным. Но самый неожиданный исход часто оказывается наиболее вероятным».
Узнать подробнее про клуб ShareAI
Примечательным аспектом стал алгоритм GRPO, разработанный DeepSeek в феврале 2024 года. Он убирает критическую сеть из PPO и использует среднее вознаграждение от множества образцов, что существенно снижает использование памяти. Кроме того, исследователи отметили интересное эмергентное свойство: время «размышления» модели стабильно увеличивается по мере обучения.
Особое внимание привлек инновационный механизм вознаграждения, использующий правила жесткого кодирования вместо обучаемых моделей вознаграждения.
Фан особо подчеркнул новую парадигму технологического влияния: «Влияние может достигаться как через ‘внутреннее достижение AGI’ или мифические названия вроде ‘Project Strawberry’, так и простым раскрытием алгоритмов и графиков обучения». Этот подход подчеркивает важность открытости и прозрачности в развитии ИИ.