ИИ и дискриминация: когда алгоритмы становятся предвзятыми

Amazon пришлось отказаться от использования ИИ для найма сотрудников, когда обнаружилось, что система отдает предпочтение кандидатам-мужчинам. Алгоритм снижал рейтинг резюме, содержащих слова, более характерные для женских резюме. Такой кейс найма персонала.

А еще представьте: вы отправляете резюме в крупную компанию, где первичный отбор кандидатов проводит искусственный интеллект. Система анализирует ваш опыт, навыки, образование… и отклоняет заявку. Причина? Возможно, вы женщина. Или ваша фамилия звучит «нетипично». Или вам больше 45 лет. Звучит как антиутопия? А между тем это уже реальность.

Масштаб проблемы

Исследования последних лет показывают шокирующую картину: ИИ-системы, которые должны были стать эталоном беспристрастности, на деле воспроизводят и даже усиливают существующие в обществе предрассудки. И речь идет не только о найме сотрудников — предвзятость алгоритмов затрагивает здравоохранение, банковское дело, правоохранительную систему и множество других сфер нашей жизни.

Как отмечают эксперты McKinsey (Майкл Чуи, Джеймс Маньика и Мехди Миремади), распознать и исправить предвзятость в ИИ-системах невероятно сложно. Это требует не только глубокого понимания методов data science, но и осознания существующих социальных проблем, включая особенности сбора данных.

Главная проблема кроется в данных для обучения. Если датасет не репрезентативен — например, содержит информацию преимущественно о белых мужчинах среднего возраста — система будет хуже работать со всеми остальными группами населения. При этом исследователи используют 95-процентный доверительный интервал, что означает: даже в лучшем случае вероятность предвзятого решения составляет 1/20.

Цитируя Иммануила Канта: «В изгибах этих наборов данных ни один из них не прямой». Это метафорично отражает суть проблемы: практически каждый алгоритм машинного обучения опирается на предвзятые базы данных.

Три источника предвзятости

1. Предвзятость данных:
— Большинство датасетов состоят из неструктурированных данных, собранных путем наблюдений, без строгих методов контролируемой среды
— По мере улучшения ИИ модель приспосабливается к недостатку представленности, снижая чувствительность к недопредставленным группам
— Алгоритм начинает отдавать предпочтение представленной группе, работая менее эффективно для других

2. Алгоритмическая предвзятость:
— Систематические и повторяемые ошибки в компьютерных системах приводят к неравенству на основе защищаемых характеристик
— «Прогностическая предвзятость» возникает, когда оценки систематически завышают или занижают показатели определенной группы

3. Когнитивная предвзятость:
— Разработчики неосознанно встраивают свои предубеждения в системы
— Выбор данных и их взвешивание часто отражают личные предпочтения создателей

Математика дискриминации

Показательный пример:
— Из 100 мужчин были наняты 7 (7%)
— Из 200 женщин были наняты 3 (1.5%)
— Соотношение показателей найма: 21.4%

По «правилу четырех пятых», если показатель найма защищаемой группы составляет менее 80% от показателя доминирующей группы, это считается дискриминацией. При этом, как отмечает EEOC (Комиссия по равным возможностям трудоустройства), «правило четырех пятых» может не всегда быть подходящим стандартом, и работодателям рекомендуется уточнять у поставщиков ИИ-инструментов, какие стандарты они используют для оценки.

Здравоохранение:
Системы компьютерной диагностики (CAD) показывают более низкую точность при обследовании темнокожих пациентов по сравнению с белыми.

Онлайн-реклама:
Исследование Университета Карнеги-Меллона выявило, что система контекстной рекламы Google чаще показывает объявления о высокооплачиваемых должностях мужчинам.

Генеративный ИИ:
Анализ Midjourney показал, что при создании изображений людей определенных профессий система изображает пожилых специалистов исключительно как мужчин.

Правоохранительная система:
ИИ-системы прогнозирования преступности воспроизводят существующие паттерны расового профилирования.

Пути решения проблем

По рекомендации OPC (Офис комиссара по защите частной жизни Канады), организации должны:
1. Проводить оценку влияния ИИ-систем
2. Внедрять меры по снижению рисков
3. Обеспечивать прозрачность процесса принятия решений
4. Проводить регулярный аудит систем

Технические решения

1. Улучшение данных:
— Использование разнообразных наборов данных
— Внедрение техник балансировки
— Регулярный аудит качества

2. Совершенствование алгоритмов:
— Инструменты обнаружения предвзятости
— Механизмы объяснения решений
— Улучшенные методы тестирования

3. Организационные меры:
— Разнообразные команды разработчиков
— Этические framework’и
— Обучение персонала

Анализ 49 научных работ за 2007-2023 годы показал фрагментарность нашего понимания проблемы. Как отмечается в публикации NIST 1270, человеческие и институциональные факторы часто остаются без внимания, хотя являются значительными источниками предвзятости ИИ.

Заключение

ИИ — это зеркало общества. Борьба с алгоритмической дискриминацией должна идти рука об руку с более широкими социальными изменениями. Без активного вмешательства ИИ рискует усугубить существующее неравенство вместо того, чтобы помочь создать более справедливое общество для всех.

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

ИИ и дискриминация: когда алгоритмы становятся предвзятыми