Компания Apple разработала компактный AI-агент Ferret-UI Lite для работы непосредственно на iPhone. Модель с 3 миллиардами параметров способна понимать графические интерфейсы приложений и управлять ими вместо пользователя.
Проект стартовал с публикации работы команды из девяти исследователей. Они создали мультимодальную модель Ferret, которая понимает ссылки на фрагменты изображений на естественном языке.
Узнать подробнее про клуб ShareAI
За полтора года Apple выпустила целое семейство моделей. Появились Ferretv2, Ferret-UI и Ferret-UI 2. Каждая версия расширяла возможности предшественника.
Ключевая проблема, которую решает Ferret-UI — неспособность обычных больших языковых моделей эффективно работать с пользовательскими интерфейсами. Мобильные экраны отличаются от обычных изображений вытянутым соотношением сторон и множеством мелких элементов вроде иконок и текста.
Первая Ferret-UI базировалась на модели с 13 миллиардами параметров. Она работала со скриншотами фиксированного разрешения. Ferret-UI 2 добавила поддержку разных платформ и улучшила восприятие высокого разрешения.
Но обе эти версии слишком велики для локального запуска на смартфоне. Им нужны серверные мощности. Это создает проблемы с приватностью и требует постоянного интернет-соединения.
Ferret-UI Lite решает эту проблему радикально. При размере всего 3 миллиарда параметров она умещается на устройстве. Но при этом показывает результаты, сравнимые с моделями в 24 раза крупнее.
Исследователи применили несколько хитрых приемов. Использовали реальные и синтетические данные из разных областей GUI. Добавили динамическое кадрирование для лучшего понимания отдельных элементов интерфейса. Применили контролируемую настройку и обучение с подкреплением.
Особенно интересен подход к генерации обучающих данных. Создали мультиагентную систему, которая сама взаимодействует с реальными интерфейсами. Один агент ставит задачи возрастающей сложности. Другой планирует шаги для их решения. Третий выполняет действия на экране. Четвертый проверяет результаты.
Такой конвейер позволяет модели учиться на ошибках и неожиданных ситуациях. Это было бы сложно сделать только на размеченных вручную данных.
Любопытная деталь — Ferret-UI и Ferret-UI 2 обучались на интерфейсах iOS и других платформ Apple. А Ferret-UI Lite тренировалась на Android, веб-приложениях и десктопных интерфейсах.
Тестирование показало сильные и слабые стороны. Модель отлично справляется с краткосрочными простыми задачами. Но сложные многошаговые действия даются ей труднее. Это ожидаемый компромисс для компактной модели.
Главное преимущество Ferret-UI Lite — полная локальная работа. Данные не покидают устройство. Это критично для конфиденциальности. Apple не получает доступ к тому, что делает пользователь.

