Google собирает втрое больше данных для ИИ чем OpenAI

Данные Cloudflare показывают, что Google получает огромное преимущество перед OpenAI и Anthropic в сборе данных для ИИ. Компания использует сочетание поискового робота и сканирования для обучения искусственного интеллекта.

Гендиректор Cloudflare Мэтью Принс заявил, что Google получает выгоду от привилегированного доступа к интернету. Причина в том, как поисковый робот связан с системами сбора данных для ИИ.

По словам Принса, внутренние данные Cloudflare показывают следующее. Google просматривает в 3,2 раза больше страниц, чем OpenAI. Разница ещё больше с другими конкурентами. Google просматривает в 4,6 раза больше контента, чем Microsoft, и в 4,8 раза больше, чем Anthropic.

Принс считает, что дисбаланс связан с решением Google объединить поискового робота с роботом для ИИ. Владельцы сайтов не могут заблокировать обучение ИИ, не исчезнув из поисковой системы Google. Это создаёт дилемму. Фактически Google получает эксклюзивный доступ к огромным объёмам данных.

Принс рассматривает это как злоупотребление давним доминированием на рынке. Он предполагает, что поведение Google позволяет компании распространить свою монополию на развивающуюся сферу искусственного интеллекта.

Масштаб дисбаланса становится очевиднее, если посмотреть на попытки сопротивления. С 1 июля Cloudflare заблокировала 416 миллиардов запросов ИИ для своих клиентов. Эти блокировки в основном затрагивают компании, которые следуют стандартам или идентифицируют своих роботов отдельно. Однако Google обходит этот барьер благодаря тесной связи поисковых систем и ИИ.

Перед владельцами сайтов стоит выбор. Разрешить использовать контент для обучения ИИ-моделей Google или потерять позиции в поисковой выдаче. Для многих издателей такой компромисс может оказаться губительным с финансовой точки зрения. Трафик из поиска Google часто составляет основную часть посещаемости.

Принс сказал изданию WIRED, что Google является главным препятствием на пути к прогрессу. Изменения возможны только если на компанию окажут давление или убедят разделить поисковые и ИИ-роботы. Без такого разделения у издателей практически не будет возможности защитить свой контент.

Также издатели не смогут договориться о моделях лицензирования. Эти модели будут иметь решающее значение в эпоху ИИ. Многие издания уже заключают платные соглашения с разработчиками ИИ на использование их контента. Но с Google такая схема не работает из-за его монопольного положения в поиске.