Команда Cursor провела эксперимент с сотнями кодинг-агентов. Разработчики запустили их параллельно на одном проекте и дали работать неделями. За это время агенты написали более миллиона строк кода. Цель — проверить, могут ли такие системы решать задачи, на которые у команд уходят месяцы.
Первая попытка провалилась. Когда двадцати агентам дали равные права, они работали как два-три человека. Остальные стояли в очереди и ждали освобождения блокировок. Без иерархии агенты избегали сложных задач и делали только мелкие правки.
Узнать подробнее про клуб ShareAI
Решение нашли в разделении ролей. Планировщики изучают код и создают задачи. Воркеры их выполняют и отправляют изменения. Схема сработала.
Для проверки агентам на GPT-5.2 дали задачу написать браузер с нуля. За неделю они создали более трех миллионов строк кода. Получился движок на Rust с парсингом HTML, каскадом CSS, системой layout, отрисовкой текста и виртуальной машиной JavaScript.
CEO Cursor Майкл Труэлл сообщил, что простые сайты браузер показывает быстро и правильно. До уровня WebKit или Chromium далеко, но результат впечатляет.
GPT-5.2 оказалась лучше других моделей для долгих задач. Она держит фокус и следует инструкциям. Opus 4.5 часто останавливается раньше и упрощает работу. При этом GPT-5.2 лучше планирует, чем GPT-5.1-codex, заточенная под код.
Главный вывод команды — промпты важнее выбора модели или архитектуры. Координация сотен агентов и удержание фокуса неделями потребовали долгих экспериментов с инструкциями.
Система пока не идеальна. Агенты иногда тратят много времени на одну задачу. Их перезапускают, чтобы избежать зацикливания. Но главный вопрос получил ответ — масштабирование работает.

