Nvidia призывает индустрию к рациональному подходу в агентном ИИ

Инженерно-исследовательское подразделение Nvidia опубликовало аналитический материал, содержащий критическую оценку текущей парадигмы разработки агентных систем на базе крупных языковых моделей (LLM). Согласно их данным, ИИ-индустрия движется по экономически и экологически нерациональному пути, переоценивая необходимость использования масштабных моделей для решения агентных задач.

Фундаментальный тезис исследования заключается в том, что большинство агентных систем могут функционировать с аналогичной эффективностью при использовании малых языковых моделей (SLM), определяемых как архитектуры с количеством параметров менее 10 млрд.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Специалисты Nvidia указывают на критический дисбаланс в экономике отрасли: при оценке рынка API LLM для агентных систем в 5,6 млрд долларов, сопутствующие расходы на облачную инфраструктуру для их функционирования достигли колоссальных 57 млрд долларов, создавая десятикратный разрыв между стоимостью услуг и операционными затратами.

«Эта операционная модель так глубоко вросла в индустрию, что стала фундаментом для масштабных капитальных ставок», — отмечают авторы исследования, подчеркивая, что сформировавшаяся инфраструктурная инерция препятствует пересмотру технологических подходов.

Техническая аргументация в пользу компактных моделей базируется на серии сравнительных анализов производительности.

Исследователи демонстрируют, что модель Phi 2 от Microsoft, несмотря на свой компактный размер, демонстрирует производительность, сопоставимую с 30-миллиардными архитектурами в задачах логического анализа и программирования, обеспечивая при этом 15-кратное преимущество в скорости обработки данных.

Аналогичным образом, линейка моделей Nemotron H от Nvidia с количеством параметров до 9 миллиардов показывает точность, эквивалентную значительно более масштабным LLM, при существенно меньших требованиях к вычислительным ресурсам.

Технические специалисты Nvidia отмечают фундаментальную архитектурную неэффективность крупных моделей, заключающуюся в низком коэффициенте активации параметров при обработке конкретных запросов.

Большинство агентных задач характеризуются рутинным, узкоспециализированным характером без необходимости продолжительных диалогов, что делает использование всего спектра возможностей LLM избыточным. «По сути, агент ИИ — это тщательно проинструктированный и внешне срежиссированный шлюз к языковой модели», — констатируют исследователи.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.