Google представляет мультиагентный Gemini 2.5 Deep Think

Google DeepMind анонсировал выпуск Gemini 2.5 Deep Think – первой общедоступной мультиагентной ИИ-системы, реализующей принципиально новый подход к решению сложных интеллектуальных задач. Данная технология становится доступной подписчикам тарифа Google Ultra начиная с этого дня.

В комплексном тесте “Последний экзамен человечества” (Humanity’s Last Exam, HLE), оценивающем способность ИИ к решению задач в области математики, гуманитарных и естественных наук, модель Google достигла показателя 34,8% без использования вспомогательных инструментов, что значительно превосходит результаты Grok 4 от xAI (25,4%) и o3 от OpenAI (20,3%).

Аналогичное доминирование наблюдается в области программирования, где на сложном тесте LiveCodeBench6 Gemini 2.5 Deep Think продемонстрировала результат 87,6%, превзойдя Grok 4 (79%) и o3 от OpenAI (72%). Данные метрики подтверждают качественный скачок в способности системы решать задачи, требующие интеграции абстрактного мышления и технической имплементации.

Техническое превосходство системы базируется на инновационной архитектуре, задействующей множественные ИИ-агенты для одновременного исследования различных концептуальных направлений и подходов к решению поставленной задачи.

Это требует значительно более высоких вычислительных мощностей по сравнению с традиционными моноагентными системами, но обеспечивает качественно новый уровень аналитической глубины и точности результатов.

Практическое подтверждение эффективности данного подхода было получено в рамках Международной математической олимпиады текущего года, где модифицированная версия Gemini 2.5 Deep Think завоевала золотую медаль, демонстрируя способность решать задачи высочайшего уровня сложности, требующие нестандартного математического мышления.

Важно отметить, что Google планирует предоставить доступ к специализированной “олимпиадной” версии модели избранной группе математиков и ученых для исследовательских целей, формируя канал обратной связи для дальнейшего совершенствования мультиагентных систем в контексте академического применения.

Особую значимость для оценки технологического прорыва представляют результаты бенчмарков, демонстрирующие существенное превосходство Gemini 2.5 Deep Think над конкурирующими решениями.