Google разработала модели ML для интерпретации данных фитнес-трекеров

Google представила SensorLM — семейство базовых моделей машинного обучения, предназначенных для анализа и интерпретации данных с фитнес-трекеров на естественном языке. Новая разработка призвана решить фундаментальную проблему понимания пользователями биометрических показателей.

Ключевая техническая проблема при разработке подобных систем заключалась в отсутствии масштабных наборов данных с соответствующими текстовыми описаниями. Ручная разметка миллионов часов биометрических показателей экономически нецелесообразна. Исследователи Google преодолели это ограничение путем создания нового подхода к автоматизированной генерации датасета.

Эти устройства собирают обширные массивы данных о физической активности, пульсе, фазах сна и других параметрах, однако интерпретация этой информации часто представляет сложность для обычных пользователей. Например, скачок пульса до 150 ударов в минуту без контекста не дает полного понимания физиологического состояния.

Для формирования обучающей выборки команда собрала беспрецедентный объем данных — около 2,5 миллиона человеко-дней информации от 103 тысяч пользователей из 127 стран. Сбор осуществлялся с умных часов Fitbit и Pixel Watch при наличии соответствующего согласия владельцев.

Для автоматизации процесса разметки исследователи разработали специализированный технологический конвейер, что позволило сформировать крупнейший на сегодняшний день корпус, сочетающий показания датчиков с их текстовыми интерпретациями.

Процесс обучения модели проходил в два этапа. На начальной фазе алгоритм научился классифицировать сегменты данных, сопоставляя их с соответствующими текстовыми описаниями из ограниченного набора вариантов.

Это обеспечило базовое семантическое понимание контекста активности — система стала различать, например, легкое плавание от интенсивной силовой тренировки. На втором этапе модель была дообучена для генерации естественно-языковых интерпретаций показаний фитнес-трекеров.

Финальная версия SensorLM демонстрирует комплексное понимание физической активности пользователя. После тренировки она способна не только идентифицировать конкретный вид спорта, но и формировать аналитическую сводку с ключевыми параметрами: средним пульсом, скоростью, дистанцией и другими релевантными метриками.

Модель также интегрирует интерактивный компонент, позволяющий отвечать на специфические запросы — например, определить пиковый показатель пульса во время вечерних пробежек за предыдущий месяц.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.