Reddit подал в суд на Perplexity за кражу контента

Социальная сеть Reddit подала судебный иск против компании Perplexity, обвинив ее в незаконном сборе пользовательских постов для обучения своей ИИ-модели. Это очередное столкновение между владельцами контента и индустрией искусственного интеллекта за права на данные.

Иск, поданный в федеральный суд Нью-Йорка, также назвал трех соответчиков, которые, по мнению Reddit, помогали Perplexity собирать данные: литовскую компанию Oxylabs, “бывшую российскую ботнет-сеть” AWMProxy и техасский стартап SerpApi.

Reddit утверждает, что эти три компании смогли извлечь защищенный авторским правом контент, “скрывая свою личность, местоположение и маскируя свои веб-скраперы под обычных пользователей”.

Perplexity, разрабатывающая поисковую систему на базе искусственного интеллекта, отрицает обвинения и заявляет, что Reddit занимается “вымогательством” и выступает против открытого интернета. SerpApi сообщила CNBC, что “категорически не согласна” с утверждениями Reddit и намерена защищаться в суде.

Это один из многих исков, поданных владельцами контента против ИИ-компаний, которых обвиняют в использовании материалов без разрешения для обучения языковых моделей. В июне Reddit уже подал похожий иск против стартапа Anthropic, который еще рассматривается.

Бен Ли, главный юрист Reddit, заявил, что ИИ-компании “участвуют в гонке за качественным человеческим контентом”, и это давление породило “индустриальную экономику ‘отмывания данных’”. По его словам, скраперы обходят технологическую защиту, чтобы красть данные, а затем продают их клиентам, жаждущим материала для обучения.

Reddit, который содержит более 100 000 тематических сообществ “subreddit”, указал в иске, что посты его пользователей стали наиболее часто цитируемым источником для ИИ-генерируемых ответов на платформе Perplexity.

Социальная сеть также утверждает, что после отправки Perplexity письма с требованием прекратить эти действия, компания увеличила количество цитат из Reddit в 40 раз.

Исследователи ИИ ранее отмечали, что большой объем модерируемых разговоров на Reddit помогает сделать ответы ИИ-чат-ботов более естественными.

В эпоху искусственного интеллекта Reddit стремится использовать свой огромный массив данных, разрешая доступ к нему только через лицензионные соглашения. Компания уже подписала такие соглашения с OpenAI и Google.

В ответ на иск Perplexity в своем посте на платформе Reddit заявила, что не обучает ИИ-модели на контенте, а лишь обобщает и цитирует публичные обсуждения. Поэтому, по их словам, “невозможно” подписать лицензионное соглашение.

“Год назад, после объяснения этого, Reddit настаивал на оплате, несмотря на то, что мы законно получали доступ к данным. Подчиняться силовой тактике - не наш стиль ведения бизнеса”, - говорится в заявлении Perplexity.

В феврале операционный директор Reddit Джен Вонг сообщила, что лицензионные сделки по ИИ с Google и OpenAI составляют почти 10% доходов компании.