Snowflake протестировал китайскую модель GLM-5.2 от компании Zhipu AI на реальных задачах — и результат оказался неудобным для западных игроков. В бенчмарке из 103 задач по написанию кода GLM-5.2 справился почти так же, как Claude Opus 4.7 от Anthropic.
Тест выглядит так: модели пишут код, который должен работать одновременно на двух платформах — DuckDB и Snowflake. Каждую задачу прогоняли трижды. Итог: GLM решил 66% задач, Opus — 67%.
Нюансы есть. С первой попытки Opus заметно лучше — 53,7% против 47,6% у GLM. Китайская модель тратит почти вдвое больше токенов: 860 миллионов против 439 миллионов у Opus. На одной задаче GLM за 24 минуты сделал 411 вызовов инструментов — проверял счётчики строк, распределения, нулевые значения — и всё равно провалил все три попытки. Opus решил ту же задачу за 49 вызовов и 9 минут.
Но всё это меркнет на фоне цены. GLM-5.2 стоит $4,40 за миллион исходящих токенов. Claude Opus 4.7 — $25. Opus дороже почти в шесть раз.
Даже с учётом повышенного расхода токенов реальная разница в стоимости остаётся огромной. Сридхар Рамасвами, CEO Snowflake, заявил, что команда хочет сделать GLM-5.2 доступным для своих клиентов.
Для Anthropic и OpenAI это прямой удар. Оба называют код флагманским коммерческим сценарием — именно на нём строится их расчёт на рост доходов. Если китайские модели дают сопоставимое качество за пятую часть цены, это давление на рост доходов. А оценки западных AI-лабораторий в сотни миллиардов долларов держатся именно на ожидании этого роста.