Новый бенчмарк Vending-Bench 2 выявил слабость топовых моделей в управлении бизнесом. AI год управляют виртуальным вендинговым автоматом. Стартовый капитал $500. Аренда $2 в день. При минусе на балансе 10 дней подряд — банкротство.
Gemini 3 Pro заработала $5478 за условный год. Claude Opus 4.5 получила $4967. GPT-5.2 показала $3952. Claude Sonnet 4.5 заработала $3838. Все топовые закрытые модели остались в плюсе.
Узнать подробнее про клуб ShareAI
Сюрприз принесла китайская открытая GLM 4.7 от Zhipu AI. Модель заработала $2376 и заняла шестое место. Она стала первой прибыльной открытой системой в официальном лидерборде.
GPT-5.1 провалилась с результатом $1473. Это хуже китайской открытой модели в 1.6 раза. Хуже лидера Gemini 3 Pro в 3.7 раза.
Andon Labs провела анализ причин провала. GPT-5.1 слишком доверяет окружению. В одном прогоне модель заплатила поставщику до получения спецификации. Партнер оказался банкротом — деньги потеряны.
Вторая проблема — переплаты. GPT-5.1 покупала банки газировки по $2.40 за штуку. Энергетики брала по $6. При таких ценах закупки получить прибыль почти невозможно. Наценка съедается арендой и операционными расходами.
Gemini 3 Pro победила благодаря жесткости в переговорах. Модель отказывается от завышенных цен. Ищет альтернативных поставщиков. Не соглашается на первое попавшееся предложение. Эта стратегия окупилась максимальной прибылью.
Симуляция максимально приближена к реальности. Поставщики обманывают и завышают цены. Доставки задерживаются без предупреждения. Надежные партнеры внезапно разоряются. Клиенты требуют возврат денег за некачественный товар.
За год модель генерирует 60-100 миллионов токенов. Это проверка на устойчивость работы с длинным контекстом. Система должна помнить прошлые сделки и учиться на ошибках.
Теоретический максимум бенчмарка — около $63 000 в год. Gemini 3 Pro достигла только 8.7% от потолка. Разрыв показывает огромное пространство для улучшений.
Для достижения максимума нужно найти самые дорогие товары. Выбить минимальные цены у поставщиков. Поставщики тоже LLM — их можно обмануть хитрым промптингом. Оптимизировать ассортимент под спрос.
Gemini 2.5 Pro и Gemini 2.5 Flash едва заработали $550. Они практически на уровне безубыточности. Более старые версии проигрывают новым в разы.
Vending-Bench 2 доказывает важный факт. AI пока далеки от эффективного управления даже простым бизнесом. Лучшие модели зарабатывают меньше 10% от возможного. Путь к автономным AI-предпринимателям еще очень долгий.

