Центр практического искусственного интеллекта Сбера разработал новую технологию, значительно повышающую точность распознавания эмоций на фото и видео. Достижения ученых позволяют анализировать сложные человеческие эмоции в реальных условиях. Результаты исследований были представлены на престижной международной конференции по компьютерному зрению ECCV 2024.
Специалисты Сбера презентовали две научные работы. Первое исследование посвящено распознаванию составных эмоций. В отличие от базовых эмоций вроде радости или грусти, в жизни люди чаще испытывают смешанные состояния, например, «радостное удивление» или «печальный испуг». Разработанный алгоритм способен улавливать эти эмоциональные нюансы.
Узнать подробнее про клуб ShareAI
Технология использует легковесные нейросетевые модели, в частности MT-EmotiMobileFaceNet, для выделения эмоциональных признаков. После этого применяется специальная обработка результатов с помощью усреднения или гауссовских фильтров, что заметно повышает точность распознавания.
Предложенный метод сглаживания предсказаний улучшил F1-меру классификации составных эмоций на 4,5 процентных пункта. С этим результатом команда Сбера заняла второе место в конкурсе Compound Expression Recognition в рамках соревнования ABAW-7 на конференции ECCV.
Важное преимущество разработки — она точно распознает составные эмоции без необходимости дообучать модель на новых данных. Ранее это было серьезным препятствием для практического применения подобных технологий.
Во втором исследовании ученые создали серию легких моделей для одновременного решения нескольких задач. Работа получила название «Анализ эмоций на фото и видео с использованием эффективных многозадачных нейросетевых моделей». Разработанные нейросети распознают выражения лица, определяют знак (valence) и интенсивность (arousal) эмоций, а также 12 кодов лицевых движений из классификации Пола Экмана.
Среди созданных легковесных нейросетей — MT-EmotiDDAMFNet и MT-EmotiEffNet. Объединение признаков от этих двух архитектур позволило существенно улучшить результаты базового решения конкурса ABAW-7. Точность распознавания выражений лица выросла на 7 процентных пунктов, а качество предсказания знака и интенсивности эмоций увеличилось в 1,25 раза.
Суммарная метрика качества для всех трех задач конкурса увеличилась в 4,5 раза, что принесло ученым Сбера серебряную медаль в соревновании Multi-Task Learning Challenge.
Новая технология имеет и практические преимущества — она работает непосредственно на мобильных устройствах без необходимости отправлять видео лиц в облако. Это экономит вычислительные ресурсы и повышает уровень безопасности персональных данных.
Разработчики сделали все модели и исходный код доступными в открытой библиотеке EmotiEffLib, что позволит другим исследователям использовать и развивать эту технологию.

