Новый Grok 4 Илона Маска устанавливает рекорд в ИИ-бенчмарках

Компания xAI под руководством Илона Маска представила новое поколение языковой модели Grok 4, демонстрирующую беспрецедентные результаты в ключевых отраслевых тестах. Максимальная версия Grok 4 Heavy достигла 50,7% в бенчмарке “Humanity’s Last Exam” (Последний экзамен человечества), что более чем вдвое превышает показатель предыдущего лидера – Gemini 2.5 Pro от Google с результатом около 22%.

“Пока он не создал новых технологий, но это вопрос времени. Уже в следующем году Grok может открыть новую физику”, – заявил Илон Маск, характеризуя потенциал новой модели, которая, по его словам, обладает знаниями уровня доктора наук во всех областях без исключения.

Ключевое техническое новшество – интеграция функций использования инструментов (tool use) непосредственно в процесс обучения модели, что обеспечивает эффективное взаимодействие с браузером, интерпретатором кода и другими внешними сервисами.

Grok 4 установил несколько значимых отраслевых рекордов:

Первое преодоление 10%-го барьера в бенчмарке ARC-AGI v2 с результатом 15,9%.
Лидирующий показатель 66,6% в тесте ARC-AGI v1.
Точность 72,8% в медицинском бенчмарке X-ray, превосходящая все существующие модели.

В практическом тесте по управлению виртуальным вендинговым аппаратом Grok 4 самостоятельно принимал решения о закупках и ценообразовании, заработав $4694 и реализовав более 4500 товаров. Для сравнения, Claude Opus в аналогичных условиях смог генерировать доход лишь в $2077. Этот эксперимент наглядно демонстрирует потенциал применения модели для бизнес-оптимизации в ритейле.

Функциональные возможности Grok 4 существенно расширены по сравнению с предыдущими версиями:

Улучшенное понимание видео и изображений
Усовершенствованный голосовой режим с возможностью изменения интонаций, эмоций и пения
Контекстное окно в 256 тысяч токенов в API
Способность создавать 3D-игры с автоматическим поиском ассетов и интеграцией моделей в игровой движок

Коммерческая стратегия xAI предусматривает многоуровневую систему доступа: Grok 4 Heavy будет доступен по подписке за $300 в месяц, стандартная версия Grok 4 – за $30, а бесплатным пользователям останется предыдущее поколение – Grok 3.

Компания также анонсировала дорожную карту развития продукта: в августе планируется выпуск специализированной модели для программистов, в сентябре – мультимодального агента, а в октябре – системы для генерации видеоконтента. Все эти компоненты будут интегрированы в экосистему Grok 4.