Оценщики Gemini рассказали о проблемах работы

Издание The Guardian пообщалось с сотрудниками компании GlobalLogic, которые занимаются оценкой новых версий ИИ-модели Gemini от Google перед их запуском. Специалисты поделились своими опасениями насчет качества проверки.

Десять сотрудников рассказали изданию, что разочарованы в своей работе. По их словам, сроки для проверки постоянно сжимаются, из-за чего растет ощущение, что продукт может быть “небезопасным”.

Одна из оценщиц сообщила, что за последние полгода время на проверку одного ответа сократили с 30 до 15 минут. За это время нужно успеть проанализировать текст примерно на 500 слов, проверить факты и написать отзыв. Сотрудница сомневается, что такие короткие сроки помогают создать надежную ИИ-модель.

Другую оценщицу по имени Ребекка Джексон-Артис наняли осенью 2024 года и обучали меньше недели. Помимо проверки она должна была добавлять в модель дополнительную информацию по разным темам - от здоровья и финансов до развития детей.

Поначалу руководство говорило, что спешить не нужно, главное - качество. Но через два месяца девушку вызвали на разговор и попросили “просто выполнять план” и “не беспокоиться о том, что она выпускает”.

Сотрудница Рэйчел Сойер заметила, что в 2025 году требования к качеству ответов стали еще менее строгими. Примеры, которые раньше считались “неприемлемыми”, теперь перешли в разряд “вполне допустимых”.

По информации сотрудников GlobalLogic, зарплата начинается от 16 долларов в час, а у специалистов высшего уровня - от 21 доллара в час. При этом оценщикам из американского подразделения платят больше, чем коллегам из Африки и Южной Америки. Точные суммы для последних не уточняются.

“Это люди с большим опытом, которые выполняют огромный объем письменной работы, но получают меньше, чем заслуживают, чтобы создать ИИ-модель, которая, на мой взгляд, миру не нужна”, - сказал один из сотрудников GlobalLogic, который пожелал остаться анонимным.

Компания Google прокомментировала ситуацию, заявив, что оценки специалистов от подрядчиков - “один из многих показателей”, который “не влияет напрямую” на алгоритмы и ИИ-модели компании.