Компания xAI под руководством Илона Маска представила новое поколение языковой модели Grok 4, демонстрирующую беспрецедентные результаты в ключевых отраслевых тестах. Максимальная версия Grok 4 Heavy достигла 50,7% в бенчмарке “Humanity’s Last Exam” (Последний экзамен человечества), что более чем вдвое превышает показатель предыдущего лидера – Gemini 2.5 Pro от Google с результатом около 22%.
“Пока он не создал новых технологий, но это вопрос времени. Уже в следующем году Grok может открыть новую физику”, – заявил Илон Маск, характеризуя потенциал новой модели, которая, по его словам, обладает знаниями уровня доктора наук во всех областях без исключения.
Ключевое техническое новшество – интеграция функций использования инструментов (tool use) непосредственно в процесс обучения модели, что обеспечивает эффективное взаимодействие с браузером, интерпретатором кода и другими внешними сервисами.
Grok 4 установил несколько значимых отраслевых рекордов:
- Первое преодоление 10%-го барьера в бенчмарке ARC-AGI v2 с результатом 15,9%.
- Лидирующий показатель 66,6% в тесте ARC-AGI v1.
- Точность 72,8% в медицинском бенчмарке X-ray, превосходящая все существующие модели.
Функциональные возможности Grok 4 существенно расширены по сравнению с предыдущими версиями:
- Улучшенное понимание видео и изображений
- Усовершенствованный голосовой режим с возможностью изменения интонаций, эмоций и пения
- Контекстное окно в 256 тысяч токенов в API
- Способность создавать 3D-игры с автоматическим поиском ассетов и интеграцией моделей в игровой движок
Компания также анонсировала дорожную карту развития продукта: в августе планируется выпуск специализированной модели для программистов, в сентябре – мультимодального агента, а в октябре – системы для генерации видеоконтента. Все эти компоненты будут интегрированы в экосистему Grok 4.