Apple создает локального AI-агента для управления iPhone

Компания Apple разработала компактный AI-агент Ferret-UI Lite для работы непосредственно на iPhone. Модель с 3 миллиардами параметров способна понимать графические интерфейсы приложений и управлять ими вместо пользователя.

Проект стартовал с публикации работы команды из девяти исследователей. Они создали мультимодальную модель Ferret, которая понимает ссылки на фрагменты изображений на естественном языке.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

За полтора года Apple выпустила целое семейство моделей. Появились Ferretv2, Ferret-UI и Ferret-UI 2. Каждая версия расширяла возможности предшественника.

Ключевая проблема, которую решает Ferret-UI — неспособность обычных больших языковых моделей эффективно работать с пользовательскими интерфейсами. Мобильные экраны отличаются от обычных изображений вытянутым соотношением сторон и множеством мелких элементов вроде иконок и текста.

Первая Ferret-UI базировалась на модели с 13 миллиардами параметров. Она работала со скриншотами фиксированного разрешения. Ferret-UI 2 добавила поддержку разных платформ и улучшила восприятие высокого разрешения.

Но обе эти версии слишком велики для локального запуска на смартфоне. Им нужны серверные мощности. Это создает проблемы с приватностью и требует постоянного интернет-соединения.

Ferret-UI Lite решает эту проблему радикально. При размере всего 3 миллиарда параметров она умещается на устройстве. Но при этом показывает результаты, сравнимые с моделями в 24 раза крупнее.

Исследователи применили несколько хитрых приемов. Использовали реальные и синтетические данные из разных областей GUI. Добавили динамическое кадрирование для лучшего понимания отдельных элементов интерфейса. Применили контролируемую настройку и обучение с подкреплением.

Особенно интересен подход к генерации обучающих данных. Создали мультиагентную систему, которая сама взаимодействует с реальными интерфейсами. Один агент ставит задачи возрастающей сложности. Другой планирует шаги для их решения. Третий выполняет действия на экране. Четвертый проверяет результаты.

Такой конвейер позволяет модели учиться на ошибках и неожиданных ситуациях. Это было бы сложно сделать только на размеченных вручную данных.

Любопытная деталь — Ferret-UI и Ferret-UI 2 обучались на интерфейсах iOS и других платформ Apple. А Ferret-UI Lite тренировалась на Android, веб-приложениях и десктопных интерфейсах.

Тестирование показало сильные и слабые стороны. Модель отлично справляется с краткосрочными простыми задачами. Но сложные многошаговые действия даются ей труднее. Это ожидаемый компромисс для компактной модели.

Главное преимущество Ferret-UI Lite — полная локальная работа. Данные не покидают устройство. Это критично для конфиденциальности. Apple не получает доступ к тому, что делает пользователь.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.