Ученые Сбера научили ИИ распознавать сложные эмоции

Центр практического искусственного интеллекта Сбера разработал новую технологию, значительно повышающую точность распознавания эмоций на фото и видео. Достижения ученых позволяют анализировать сложные человеческие эмоции в реальных условиях. Результаты исследований были представлены на престижной международной конференции по компьютерному зрению ECCV 2024.

Специалисты Сбера презентовали две научные работы. Первое исследование посвящено распознаванию составных эмоций. В отличие от базовых эмоций вроде радости или грусти, в жизни люди чаще испытывают смешанные состояния, например, «радостное удивление» или «печальный испуг». Разработанный алгоритм способен улавливать эти эмоциональные нюансы.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Технология использует легковесные нейросетевые модели, в частности MT-EmotiMobileFaceNet, для выделения эмоциональных признаков. После этого применяется специальная обработка результатов с помощью усреднения или гауссовских фильтров, что заметно повышает точность распознавания.

Предложенный метод сглаживания предсказаний улучшил F1-меру классификации составных эмоций на 4,5 процентных пункта. С этим результатом команда Сбера заняла второе место в конкурсе Compound Expression Recognition в рамках соревнования ABAW-7 на конференции ECCV.

Важное преимущество разработки — она точно распознает составные эмоции без необходимости дообучать модель на новых данных. Ранее это было серьезным препятствием для практического применения подобных технологий.

Во втором исследовании ученые создали серию легких моделей для одновременного решения нескольких задач. Работа получила название «Анализ эмоций на фото и видео с использованием эффективных многозадачных нейросетевых моделей». Разработанные нейросети распознают выражения лица, определяют знак (valence) и интенсивность (arousal) эмоций, а также 12 кодов лицевых движений из классификации Пола Экмана.

Среди созданных легковесных нейросетей — MT-EmotiDDAMFNet и MT-EmotiEffNet. Объединение признаков от этих двух архитектур позволило существенно улучшить результаты базового решения конкурса ABAW-7. Точность распознавания выражений лица выросла на 7 процентных пунктов, а качество предсказания знака и интенсивности эмоций увеличилось в 1,25 раза.

Суммарная метрика качества для всех трех задач конкурса увеличилась в 4,5 раза, что принесло ученым Сбера серебряную медаль в соревновании Multi-Task Learning Challenge.

Новая технология имеет и практические преимущества — она работает непосредственно на мобильных устройствах без необходимости отправлять видео лиц в облако. Это экономит вычислительные ресурсы и повышает уровень безопасности персональных данных.

Разработчики сделали все модели и исходный код доступными в открытой библиотеке EmotiEffLib, что позволит другим исследователям использовать и развивать эту технологию.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.