В основе технологии лежит Computer-Using Agent (CUA). Это новая версия GPT-4o, объединяющая анализ изображений с продвинутым логическим мышлением. Operator может бронировать столики, заказывать еду и билеты, вызывать такси и выполнять другие онлайн-задачи. Пользователи видят действия агента в реальном времени через встроенное окно браузера и могут в любой момент перехватить управление, например, для прохождения капчи или осуществления платежей.
CUA превосходит предыдущего лидера Anthropic Claude 3.5 Sonnet в тестах компьютерного взаимодействия: 38,1% успешных выполнений задач в OSWorld, 58,1% в WebArena и 87% в WebVoyager. Сравнение с моделью Google не приводится из-за меньшего разрыва в показателях.
Хотя Anthropic и Google ранее демонстрировали похожие технологии, OpenAI первой запустила потребительский продукт. Operator уже доступен подписчикам Pro ($200/месяц) в США, в ближайшие недели его получат пользователи Plus ($20/месяц) и API.
Особенность системы – интеграция с контекстом ChatGPT: агент помнит предыдущие беседы и может использовать эту информацию для персонализации действий. При этом встроенная нейросеть-цензор постоянно проверяет выполняемые действия на соответствие правилам.