Amazon пришлось отказаться от использования ИИ для найма сотрудников, когда обнаружилось, что система отдает предпочтение кандидатам-мужчинам. Алгоритм снижал рейтинг резюме, содержащих слова, более характерные для женских резюме. Такой кейс найма персонала.
А еще представьте: вы отправляете резюме в крупную компанию, где первичный отбор кандидатов проводит искусственный интеллект. Система анализирует ваш опыт, навыки, образование… и отклоняет заявку. Причина? Возможно, вы женщина. Или ваша фамилия звучит “нетипично”. Или вам больше 45 лет. Звучит как антиутопия? А между тем это уже реальность.
Масштаб проблемы
Исследования последних лет показывают шокирующую картину: ИИ-системы, которые должны были стать эталоном беспристрастности, на деле воспроизводят и даже усиливают существующие в обществе предрассудки. И речь идет не только о найме сотрудников — предвзятость алгоритмов затрагивает здравоохранение, банковское дело, правоохранительную систему и множество других сфер нашей жизни.
Как отмечают эксперты McKinsey (Майкл Чуи, Джеймс Маньика и Мехди Миремади), распознать и исправить предвзятость в ИИ-системах невероятно сложно. Это требует не только глубокого понимания методов data science, но и осознания существующих социальных проблем, включая особенности сбора данных.
Главная проблема кроется в данных для обучения. Если датасет не репрезентативен — например, содержит информацию преимущественно о белых мужчинах среднего возраста — система будет хуже работать со всеми остальными группами населения. При этом исследователи используют 95-процентный доверительный интервал, что означает: даже в лучшем случае вероятность предвзятого решения составляет 1/20.
Цитируя Иммануила Канта: “В изгибах этих наборов данных ни один из них не прямой”. Это метафорично отражает суть проблемы: практически каждый алгоритм машинного обучения опирается на предвзятые базы данных.
Три источника предвзятости
- Предвзятость данных:
- Большинство датасетов состоят из неструктурированных данных, собранных путем наблюдений, без строгих методов контролируемой среды
- По мере улучшения ИИ модель приспосабливается к недостатку представленности, снижая чувствительность к недопредставленным группам
- Алгоритм начинает отдавать предпочтение представленной группе, работая менее эффективно для других
- Алгоритмическая предвзятость:
- Систематические и повторяемые ошибки в компьютерных системах приводят к неравенству на основе защищаемых характеристик
- “Прогностическая предвзятость” возникает, когда оценки систематически завышают или занижают показатели определенной группы
- Когнитивная предвзятость:
- Разработчики неосознанно встраивают свои предубеждения в системы
- Выбор данных и их взвешивание часто отражают личные предпочтения создателей
Математика дискриминации
Показательный пример:
- Из 100 мужчин были наняты 7 (7%)
- Из 200 женщин были наняты 3 (1.5%)
- Соотношение показателей найма: 21.4%
По “правилу четырех пятых”, если показатель найма защищаемой группы составляет менее 80% от показателя доминирующей группы, это считается дискриминацией. При этом, как отмечает EEOC (Комиссия по равным возможностям трудоустройства), “правило четырех пятых” может не всегда быть подходящим стандартом, и работодателям рекомендуется уточнять у поставщиков ИИ-инструментов, какие стандарты они используют для оценки.
Здравоохранение: Системы компьютерной диагностики (CAD) показывают более низкую точность при обследовании темнокожих пациентов по сравнению с белыми.
Онлайн-реклама: Исследование Университета Карнеги-Меллона выявило, что система контекстной рекламы Google чаще показывает объявления о высокооплачиваемых должностях мужчинам.
Генеративный ИИ: Анализ Midjourney показал, что при создании изображений людей определенных профессий система изображает пожилых специалистов исключительно как мужчин.
Правоохранительная система: ИИ-системы прогнозирования преступности воспроизводят существующие паттерны расового профилирования.
Пути решения проблем
По рекомендации OPC (Офис комиссара по защите частной жизни Канады), организации должны:
- Проводить оценку влияния ИИ-систем
- Внедрять меры по снижению рисков
- Обеспечивать прозрачность процесса принятия решений
- Проводить регулярный аудит систем
Технические решения
- Улучшение данных:
- Использование разнообразных наборов данных
- Внедрение техник балансировки
- Регулярный аудит качества
- Совершенствование алгоритмов:
- Инструменты обнаружения предвзятости
- Механизмы объяснения решений
- Улучшенные методы тестирования
- Организационные меры:
- Разнообразные команды разработчиков
- Этические framework’и
- Обучение персонала
Анализ 49 научных работ за 2007-2023 годы показал фрагментарность нашего понимания проблемы. Как отмечается в публикации NIST 1270, человеческие и институциональные факторы часто остаются без внимания, хотя являются значительными источниками предвзятости ИИ.
Заключение
ИИ — это зеркало общества. Борьба с алгоритмической дискриминацией должна идти рука об руку с более широкими социальными изменениями. Без активного вмешательства ИИ рискует усугубить существующее неравенство вместо того, чтобы помочь создать более справедливое общество для всех.