Компании Кремниевой долины инвестируют в среды обучения ИИ

Крупнейшие технологические компании и стартапы Кремниевой долины активно инвестируют в разработку сред обучения с подкреплением (RL-сред) для тренировки ИИ-агентов.

RL-среды представляют собой симуляции, в которых ИИ-агенты учатся выполнять сложные многоэтапные задачи, получая вознаграждение за успешные действия. Эксперты сравнивают эту технологию с маркированными наборами данных, которые обеспечили предыдущий прорыв в развитии искусственного интеллекта.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

«Все крупные ИИ-лаборатории создают RL-среды внутри своих компаний. Но разработка таких датасетов очень сложна, поэтому они также обращаются к сторонним поставщикам. Все смотрят на это направление», — заявила Дженнифер Ли, генеральный партнер Andreessen Horowitz.

Спрос на RL-среды привел к появлению хорошо финансируемых стартапов, таких как Mechanize и Prime Intellect. Одновременно крупные компании по разметке данных, включая Mercor и Surge, увеличивают инвестиции в это направление. По данным The Information, руководство Anthropic обсуждает возможность вложения более $1 млрд в RL-среды в течение следующего года.

Среди компаний, активно развивающих это направление, также отмечают Scale AI, которая адаптируется к новым тенденциям после потери нескольких крупных клиентов. Стартап Mechanize, основанный около шести месяцев назад, уже сотрудничает с Anthropic и предлагает инженерам зарплаты до $500 тысяч для создания RL-сред.

Prime Intellect, поддерживаемый исследователем ИИ Андреем Карпати, запустил хаб RL-сред, который называют «Hugging Face для RL-сред». Проект нацелен на предоставление независимым разработчикам доступа к ресурсам, которыми пользуются крупные ИИ-лаборатории.

Несмотря на энтузиазм, некоторые эксперты выражают сомнения. Росс Тейлор, бывший руководитель ИИ-исследований в Meta, отмечает, что RL-среды подвержены «взлому вознаграждений» — когда ИИ-модели находят способы получить награду, не выполняя задачу должным образом.

Шервин Ву из OpenAI также выразил скептицизм относительно стартапов в этой области, указав на высокую конкуренцию и быстрое развитие ИИ-исследований, что затрудняет обслуживание лабораторий.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.