Apple опубликовала результаты исследования о распознавании действий пользователя через ИИ. Компания изучала, как большие языковые модели анализируют звук и данные о движении, чтобы понять, что делает человек.
Работа называется Использование LLM для последующего объединения мультимодальных данных датчиков для распознавания активности. Исследование показывает, как Apple планирует объединить анализ через ИИ с данными от датчиков. Это даст более точное понимание активности пользователя, даже когда данных от датчиков недостаточно.
Узнать подробнее про клуб ShareAI
Исследователи отобрали данные из набора Ego4D для распознавания активности в разных контекстах. Большие языковые модели хорошо справляются с определением действий пользователя. Они анализируют звуковые и двигательные сигналы.
Модели справляются с задачами хорошо, даже без специального обучения. Если предоставить всего один пример, точность сразу значительно растет. LLM обрабатывала не саму аудиозапись, а текстовое описание от аудиомоделей и модели движения. Модель движения получает данные от акселерометра и гироскопа.
Набор данных Ego4D содержит тысячи часов записей от первого лица из реального мира. Отобранный набор включает 20-секундные выборки из 12 видов активностей. Уборка пылесосом, готовка, стирка, прием пищи, игра в баскетбол, игра в футбол, игра с питомцами, чтение книги, работа за компьютером, мытье посуды, просмотр ТВ, силовые тренировки.
Исследователи обработали данные с помощью небольших ИИ-моделей. Они генерировали текстовые описания и прогнозы. После этого данные передавались в LLM — Gemini-2.5-pro и Qwen-32B. Проверяли, насколько хорошо они определяют активность.
Apple сравнила работу двух моделей в разных ситуациях. В одной давался список из 12 возможных активностей — закрытый набор. В другой не было вариантов — открытый набор.
Большие языковые модели показали значительно более точные результаты, чем базовые модели с одним типом данных. Наивысшей точности достигли при работе с закрытым набором. Модель выбирала одну из 12 активностей.
При работе с открытым набором ИИ-модели также показали хорошие результаты. Но иногда ответы были слишком обобщенными. Gemini-2.5-pro и Qwen-32B показали сопоставимые результаты с небольшими преимуществами в разных категориях.
Исследование показывает, что ИИ-модели могут быть мощным инструментом для объединения и анализа данных разных типов с минимальным дообучением. Это может помочь создать более умные системы на мобильных устройствах и носимых гаджетах.

