Лингвисты из Петербурга разработали датасет для обучения нейросетей

Лингвисты из Высшей школы экономики в Санкт-Петербурге разработали специальный «эмоциональный словарь» для обучения ИИ. Анастасия Колмогорова и Елизавета Куликова создали датасет, который помогает нейросетям лучше понимать человеческие эмоции.

В отличие от традиционных словарей, новый инструмент адаптирован под особенности работы искусственного интеллекта. Вместо привычной пары «слово — толкование» в нем используется формат «текстовый фрагмент — эмоциональная метка», что делает его более подходящим для машинного обучения.

«Большие языковые модели могут улавливать скрытые закономерности, которые люди чувствуют на подсознательном уровне, но не могут описать. Наш датасет содержит грамотно организованные и размеченные данные для работы с нейросетями», — объясняет Анастасия Колмогорова, заведующая Лабораторией языковой конвергенции ВШЭ.

В основу словаря вошли 909 видеофрагментов общей продолжительностью 173 минуты. Участники исследования оценивали каждый фрагмент по шести основным эмоциям. При этом материалы предлагались в четырех форматах: полное видео, только звук, только текст и видео без звука.

Анализ показал, что люди наиболее согласованно определяли эмоции при чтении обычного текста. Когда участники только слушали речь, их мнения расходились сильнее. Наибольшие разногласия возникали при просмотре видео без звука.

Исследование также выявило, что разные эмоции лучше распознаются в разных форматах. Радость и удивление яснее всего определяются через интонации в звучащей речи. Злость точнее идентифицируется в тексте — в 72,9% случаев против 67,4% для аудио. Страх оказался самой «вербальной» эмоцией — его определяли по тексту и аудио в 87% случаев.

Созданный датасет уже применяется на практике. Недавно команда исследователей завершила проект для Владимиро-Суздальского музейного заповедника, где с помощью большой языковой модели анализировались отзывы посетителей со всех платформ.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.