Apple создала ИИ для определения действий пользователя по звуку

Apple опубликовала результаты исследования о распознавании действий пользователя через ИИ. Компания изучала, как большие языковые модели анализируют звук и данные о движении, чтобы понять, что делает человек.

Работа называется Использование LLM для последующего объединения мультимодальных данных датчиков для распознавания активности. Исследование показывает, как Apple планирует объединить анализ через ИИ с данными от датчиков. Это даст более точное понимание активности пользователя, даже когда данных от датчиков недостаточно.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Исследователи отобрали данные из набора Ego4D для распознавания активности в разных контекстах. Большие языковые модели хорошо справляются с определением действий пользователя. Они анализируют звуковые и двигательные сигналы.

Модели справляются с задачами хорошо, даже без специального обучения. Если предоставить всего один пример, точность сразу значительно растет. LLM обрабатывала не саму аудиозапись, а текстовое описание от аудиомоделей и модели движения. Модель движения получает данные от акселерометра и гироскопа.

Набор данных Ego4D содержит тысячи часов записей от первого лица из реального мира. Отобранный набор включает 20-секундные выборки из 12 видов активностей. Уборка пылесосом, готовка, стирка, прием пищи, игра в баскетбол, игра в футбол, игра с питомцами, чтение книги, работа за компьютером, мытье посуды, просмотр ТВ, силовые тренировки.

Исследователи обработали данные с помощью небольших ИИ-моделей. Они генерировали текстовые описания и прогнозы. После этого данные передавались в LLM — Gemini-2.5-pro и Qwen-32B. Проверяли, насколько хорошо они определяют активность.

Apple сравнила работу двух моделей в разных ситуациях. В одной давался список из 12 возможных активностей — закрытый набор. В другой не было вариантов — открытый набор.

Большие языковые модели показали значительно более точные результаты, чем базовые модели с одним типом данных. Наивысшей точности достигли при работе с закрытым набором. Модель выбирала одну из 12 активностей.

При работе с открытым набором ИИ-модели также показали хорошие результаты. Но иногда ответы были слишком обобщенными. Gemini-2.5-pro и Qwen-32B показали сопоставимые результаты с небольшими преимуществами в разных категориях.

Исследование показывает, что ИИ-модели могут быть мощным инструментом для объединения и анализа данных разных типов с минимальным дообучением. Это может помочь создать более умные системы на мобильных устройствах и носимых гаджетах.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Apple создала ИИ для определения действий пользователя по звуку