ИИ и дискриминация: когда алгоритмы становятся предвзятыми

ИИ и дискриминация: когда алгоритмы становятся предвзятыми

Amazon пришлось отказаться от использования ИИ для найма сотрудников, когда обнаружилось, что система отдает предпочтение кандидатам-мужчинам. Алгоритм снижал рейтинг резюме, содержащих слова, более характерные для женских резюме. Такой кейс найма персонала.

А еще представьте: вы отправляете резюме в крупную компанию, где первичный отбор кандидатов проводит искусственный интеллект. Система анализирует ваш опыт, навыки, образование… и отклоняет заявку. Причина? Возможно, вы женщина. Или ваша фамилия звучит “нетипично”. Или вам больше 45 лет. Звучит как антиутопия? А между тем это уже реальность.

Масштаб проблемы

Исследования последних лет показывают шокирующую картину: ИИ-системы, которые должны были стать эталоном беспристрастности, на деле воспроизводят и даже усиливают существующие в обществе предрассудки. И речь идет не только о найме сотрудников — предвзятость алгоритмов затрагивает здравоохранение, банковское дело, правоохранительную систему и множество других сфер нашей жизни.

Как отмечают эксперты McKinsey (Майкл Чуи, Джеймс Маньика и Мехди Миремади), распознать и исправить предвзятость в ИИ-системах невероятно сложно. Это требует не только глубокого понимания методов data science, но и осознания существующих социальных проблем, включая особенности сбора данных.

Главная проблема кроется в данных для обучения. Если датасет не репрезентативен — например, содержит информацию преимущественно о белых мужчинах среднего возраста — система будет хуже работать со всеми остальными группами населения. При этом исследователи используют 95-процентный доверительный интервал, что означает: даже в лучшем случае вероятность предвзятого решения составляет 1/20.

Цитируя Иммануила Канта: “В изгибах этих наборов данных ни один из них не прямой”. Это метафорично отражает суть проблемы: практически каждый алгоритм машинного обучения опирается на предвзятые базы данных.

Три источника предвзятости

  1. Предвзятость данных:
  • Большинство датасетов состоят из неструктурированных данных, собранных путем наблюдений, без строгих методов контролируемой среды
  • По мере улучшения ИИ модель приспосабливается к недостатку представленности, снижая чувствительность к недопредставленным группам
  • Алгоритм начинает отдавать предпочтение представленной группе, работая менее эффективно для других
  1. Алгоритмическая предвзятость:
  • Систематические и повторяемые ошибки в компьютерных системах приводят к неравенству на основе защищаемых характеристик
  • “Прогностическая предвзятость” возникает, когда оценки систематически завышают или занижают показатели определенной группы
  1. Когнитивная предвзятость:
  • Разработчики неосознанно встраивают свои предубеждения в системы
  • Выбор данных и их взвешивание часто отражают личные предпочтения создателей

Математика дискриминации

Показательный пример:

  • Из 100 мужчин были наняты 7 (7%)
  • Из 200 женщин были наняты 3 (1.5%)
  • Соотношение показателей найма: 21.4%

По “правилу четырех пятых”, если показатель найма защищаемой группы составляет менее 80% от показателя доминирующей группы, это считается дискриминацией. При этом, как отмечает EEOC (Комиссия по равным возможностям трудоустройства), “правило четырех пятых” может не всегда быть подходящим стандартом, и работодателям рекомендуется уточнять у поставщиков ИИ-инструментов, какие стандарты они используют для оценки.

Здравоохранение: Системы компьютерной диагностики (CAD) показывают более низкую точность при обследовании темнокожих пациентов по сравнению с белыми.

Онлайн-реклама: Исследование Университета Карнеги-Меллона выявило, что система контекстной рекламы Google чаще показывает объявления о высокооплачиваемых должностях мужчинам.

Генеративный ИИ: Анализ Midjourney показал, что при создании изображений людей определенных профессий система изображает пожилых специалистов исключительно как мужчин.

Правоохранительная система: ИИ-системы прогнозирования преступности воспроизводят существующие паттерны расового профилирования.

Пути решения проблем

По рекомендации OPC (Офис комиссара по защите частной жизни Канады), организации должны:

  1. Проводить оценку влияния ИИ-систем
  2. Внедрять меры по снижению рисков
  3. Обеспечивать прозрачность процесса принятия решений
  4. Проводить регулярный аудит систем

Технические решения

  1. Улучшение данных:
  • Использование разнообразных наборов данных
  • Внедрение техник балансировки
  • Регулярный аудит качества
  1. Совершенствование алгоритмов:
  • Инструменты обнаружения предвзятости
  • Механизмы объяснения решений
  • Улучшенные методы тестирования
  1. Организационные меры:
  • Разнообразные команды разработчиков
  • Этические framework’и
  • Обучение персонала

Анализ 49 научных работ за 2007-2023 годы показал фрагментарность нашего понимания проблемы. Как отмечается в публикации NIST 1270, человеческие и институциональные факторы часто остаются без внимания, хотя являются значительными источниками предвзятости ИИ.

Заключение

ИИ — это зеркало общества. Борьба с алгоритмической дискриминацией должна идти рука об руку с более широкими социальными изменениями. Без активного вмешательства ИИ рискует усугубить существующее неравенство вместо того, чтобы помочь создать более справедливое общество для всех.

Ирина Задорожная
Ирина Задорожная

Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.