Бенчмарк Vending-Bench 2 показал провал GPT-5.1 в бизнесе

Новый бенчмарк Vending-Bench 2 выявил слабость топовых моделей в управлении бизнесом. AI год управляют виртуальным вендинговым автоматом. Стартовый капитал $500. Аренда $2 в день. При минусе на балансе 10 дней подряд - банкротство.

Gemini 3 Pro заработала $5478 за условный год. Claude Opus 4.5 получила $4967. GPT-5.2 показала $3952. Claude Sonnet 4.5 заработала $3838. Все топовые закрытые модели остались в плюсе.

Сюрприз принесла китайская открытая GLM 4.7 от Zhipu AI. Модель заработала $2376 и заняла шестое место. Она стала первой прибыльной открытой системой в официальном лидерборде.

GPT-5.1 провалилась с результатом $1473. Это хуже китайской открытой модели в 1.6 раза. Хуже лидера Gemini 3 Pro в 3.7 раза.

Andon Labs провела анализ причин провала. GPT-5.1 слишком доверяет окружению. В одном прогоне модель заплатила поставщику до получения спецификации. Партнер оказался банкротом - деньги потеряны.

Вторая проблема - переплаты. GPT-5.1 покупала банки газировки по $2.40 за штуку. Энергетики брала по $6. При таких ценах закупки получить прибыль почти невозможно. Наценка съедается арендой и операционными расходами.

Gemini 3 Pro победила благодаря жесткости в переговорах. Модель отказывается от завышенных цен. Ищет альтернативных поставщиков. Не соглашается на первое попавшееся предложение. Эта стратегия окупилась максимальной прибылью.

Симуляция максимально приближена к реальности. Поставщики обманывают и завышают цены. Доставки задерживаются без предупреждения. Надежные партнеры внезапно разоряются. Клиенты требуют возврат денег за некачественный товар.

За год модель генерирует 60-100 миллионов токенов. Это проверка на устойчивость работы с длинным контекстом. Система должна помнить прошлые сделки и учиться на ошибках.

Теоретический максимум бенчмарка - около $63 000 в год. Gemini 3 Pro достигла только 8.7% от потолка. Разрыв показывает огромное пространство для улучшений.

Для достижения максимума нужно найти самые дорогие товары. Выбить минимальные цены у поставщиков. Поставщики тоже LLM - их можно обмануть хитрым промптингом. Оптимизировать ассортимент под спрос.

Gemini 2.5 Pro и Gemini 2.5 Flash едва заработали $550. Они практически на уровне безубыточности. Более старые версии проигрывают новым в разы.

Vending-Bench 2 доказывает важный факт. AI пока далеки от эффективного управления даже простым бизнесом. Лучшие модели зарабатывают меньше 10% от возможного. Путь к автономным AI-предпринимателям еще очень долгий.