Исследование Microsoft ставит под сомнение эффективность современного ИИ

Исследование Microsoft ставит под сомнение эффективность современного ИИ

Масштабное исследование показало, что увеличение вычислительных ресурсов во время работы ИИ не гарантирует улучшения результатов, как считалось ранее. В беспрецедентном по масштабу исследовании команда Microsoft проанализировала работу девяти передовых моделей искусственного интеллекта.

Включая такие флагманы индустрии, как GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro и Llama 3.1 405B. Особое внимание было уделено моделям, специально настроенным на улучшенные рассуждения: OpenAI o1 и o3-mini, Anthropic Claude 3.7 Sonnet, Google Gemini 2 Flash Thinking и DeepSeek R1.

Исследователи протестировали три различных подхода к масштабированию: стандартную цепочку рассуждений (Chain-of-Thought), параллельное масштабирование с множественными ответами и последовательное масштабирование с итеративным улучшением результатов. Тестирование проводилось на восьми сложных наборах данных, охватывающих математику, календарное планирование, NP-сложные задачи, навигацию и пространственное мышление.

Ключевым открытием стало выявление “разрыва между обычными моделями и моделями рассуждений”. Этот показатель сравнивает лучшие возможные результаты традиционной модели с средней производительностью модели рассуждений, что позволяет оценить потенциальный выигрыш от улучшения методов обучения и верификации.

Исследование имеет огромное значение для бизнеса: компании, внедряющие ИИ-системы, теперь смогут лучше понимать волатильность затрат и надежность моделей. Особенно важным оказался анализ того, как точность и использование токенов масштабируются с увеличением сложности задач — аспект, который до сих пор оставался малоизученным в контексте масштабирования во время выполнения задач.

Ирина Задорожная
Ирина Задорожная

Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.