Amazon пришлось отказаться от использования ИИ для найма сотрудников, когда обнаружилось, что система отдает предпочтение кандидатам-мужчинам. Алгоритм снижал рейтинг резюме, содержащих слова, более характерные для женских резюме. Такой кейс найма персонала.
А еще представьте: вы отправляете резюме в крупную компанию, где первичный отбор кандидатов проводит искусственный интеллект. Система анализирует ваш опыт, навыки, образование… и отклоняет заявку. Причина? Возможно, вы женщина. Или ваша фамилия звучит «нетипично». Или вам больше 45 лет. Звучит как антиутопия? А между тем это уже реальность.
Масштаб проблемы
Исследования последних лет показывают шокирующую картину: ИИ-системы, которые должны были стать эталоном беспристрастности, на деле воспроизводят и даже усиливают существующие в обществе предрассудки. И речь идет не только о найме сотрудников — предвзятость алгоритмов затрагивает здравоохранение, банковское дело, правоохранительную систему и множество других сфер нашей жизни.
Как отмечают эксперты McKinsey (Майкл Чуи, Джеймс Маньика и Мехди Миремади), распознать и исправить предвзятость в ИИ-системах невероятно сложно. Это требует не только глубокого понимания методов data science, но и осознания существующих социальных проблем, включая особенности сбора данных.
Главная проблема кроется в данных для обучения. Если датасет не репрезентативен — например, содержит информацию преимущественно о белых мужчинах среднего возраста — система будет хуже работать со всеми остальными группами населения. При этом исследователи используют 95-процентный доверительный интервал, что означает: даже в лучшем случае вероятность предвзятого решения составляет 1/20.
Цитируя Иммануила Канта: «В изгибах этих наборов данных ни один из них не прямой». Это метафорично отражает суть проблемы: практически каждый алгоритм машинного обучения опирается на предвзятые базы данных.
Три источника предвзятости
1. Предвзятость данных:
— Большинство датасетов состоят из неструктурированных данных, собранных путем наблюдений, без строгих методов контролируемой среды
— По мере улучшения ИИ модель приспосабливается к недостатку представленности, снижая чувствительность к недопредставленным группам
— Алгоритм начинает отдавать предпочтение представленной группе, работая менее эффективно для других
2. Алгоритмическая предвзятость:
— Систематические и повторяемые ошибки в компьютерных системах приводят к неравенству на основе защищаемых характеристик
— «Прогностическая предвзятость» возникает, когда оценки систематически завышают или занижают показатели определенной группы
3. Когнитивная предвзятость:
— Разработчики неосознанно встраивают свои предубеждения в системы
— Выбор данных и их взвешивание часто отражают личные предпочтения создателей
Математика дискриминации
Показательный пример:
— Из 100 мужчин были наняты 7 (7%)
— Из 200 женщин были наняты 3 (1.5%)
— Соотношение показателей найма: 21.4%
По «правилу четырех пятых», если показатель найма защищаемой группы составляет менее 80% от показателя доминирующей группы, это считается дискриминацией. При этом, как отмечает EEOC (Комиссия по равным возможностям трудоустройства), «правило четырех пятых» может не всегда быть подходящим стандартом, и работодателям рекомендуется уточнять у поставщиков ИИ-инструментов, какие стандарты они используют для оценки.
Здравоохранение:
Системы компьютерной диагностики (CAD) показывают более низкую точность при обследовании темнокожих пациентов по сравнению с белыми.
Онлайн-реклама:
Исследование Университета Карнеги-Меллона выявило, что система контекстной рекламы Google чаще показывает объявления о высокооплачиваемых должностях мужчинам.
Генеративный ИИ:
Анализ Midjourney показал, что при создании изображений людей определенных профессий система изображает пожилых специалистов исключительно как мужчин.
Правоохранительная система:
ИИ-системы прогнозирования преступности воспроизводят существующие паттерны расового профилирования.
Пути решения проблем
По рекомендации OPC (Офис комиссара по защите частной жизни Канады), организации должны:
1. Проводить оценку влияния ИИ-систем
2. Внедрять меры по снижению рисков
3. Обеспечивать прозрачность процесса принятия решений
4. Проводить регулярный аудит систем
Технические решения
1. Улучшение данных:
— Использование разнообразных наборов данных
— Внедрение техник балансировки
— Регулярный аудит качества
2. Совершенствование алгоритмов:
— Инструменты обнаружения предвзятости
— Механизмы объяснения решений
— Улучшенные методы тестирования
3. Организационные меры:
— Разнообразные команды разработчиков
— Этические framework’и
— Обучение персонала
Анализ 49 научных работ за 2007-2023 годы показал фрагментарность нашего понимания проблемы. Как отмечается в публикации NIST 1270, человеческие и институциональные факторы часто остаются без внимания, хотя являются значительными источниками предвзятости ИИ.
Заключение
ИИ — это зеркало общества. Борьба с алгоритмической дискриминацией должна идти рука об руку с более широкими социальными изменениями. Без активного вмешательства ИИ рискует усугубить существующее неравенство вместо того, чтобы помочь создать более справедливое общество для всех.