Компания xAI под руководством Илона Маска представила новое поколение языковой модели Grok 4, демонстрирующую беспрецедентные результаты в ключевых отраслевых тестах. Максимальная версия Grok 4 Heavy достигла 50,7% в бенчмарке «Humanity’s Last Exam» (Последний экзамен человечества), что более чем вдвое превышает показатель предыдущего лидера – Gemini 2.5 Pro от Google с результатом около 22%.
«Пока он не создал новых технологий, но это вопрос времени. Уже в следующем году Grok может открыть новую физику», – заявил Илон Маск, характеризуя потенциал новой модели, которая, по его словам, обладает знаниями уровня доктора наук во всех областях без исключения.
Ключевое техническое новшество – интеграция функций использования инструментов (tool use) непосредственно в процесс обучения модели, что обеспечивает эффективное взаимодействие с браузером, интерпретатором кода и другими внешними сервисами.
Grok 4 установил несколько значимых отраслевых рекордов:
- Первое преодоление 10%-го барьера в бенчмарке ARC-AGI v2 с результатом 15,9%.
- Лидирующий показатель 66,6% в тесте ARC-AGI v1.
- Точность 72,8% в медицинском бенчмарке X-ray, превосходящая все существующие модели.
В практическом тесте по управлению виртуальным вендинговым аппаратом Grok 4 самостоятельно принимал решения о закупках и ценообразовании, заработав $4694 и реализовав более 4500 товаров. Для сравнения, Claude Opus в аналогичных условиях смог генерировать доход лишь в $2077. Этот эксперимент наглядно демонстрирует потенциал применения модели для бизнес-оптимизации в ритейле.
Функциональные возможности Grok 4 существенно расширены по сравнению с предыдущими версиями:
- Улучшенное понимание видео и изображений
- Усовершенствованный голосовой режим с возможностью изменения интонаций, эмоций и пения
- Контекстное окно в 256 тысяч токенов в API
- Способность создавать 3D-игры с автоматическим поиском ассетов и интеграцией моделей в игровой движок
Коммерческая стратегия xAI предусматривает многоуровневую систему доступа: Grok 4 Heavy будет доступен по подписке за $300 в месяц, стандартная версия Grok 4 – за $30, а бесплатным пользователям останется предыдущее поколение – Grok 3.
Компания также анонсировала дорожную карту развития продукта: в августе планируется выпуск специализированной модели для программистов, в сентябре – мультимодального агента, а в октябре – системы для генерации видеоконтента. Все эти компоненты будут интегрированы в экосистему Grok 4.