Социальная сеть Reddit подала судебный иск против компании Perplexity, обвинив ее в незаконном сборе пользовательских постов для обучения своей ИИ-модели. Это очередное столкновение между владельцами контента и индустрией искусственного интеллекта за права на данные.
Иск, поданный в федеральный суд Нью-Йорка, также назвал трех соответчиков, которые, по мнению Reddit, помогали Perplexity собирать данные: литовскую компанию Oxylabs, “бывшую российскую ботнет-сеть” AWMProxy и техасский стартап SerpApi.
Reddit утверждает, что эти три компании смогли извлечь защищенный авторским правом контент, “скрывая свою личность, местоположение и маскируя свои веб-скраперы под обычных пользователей”.
Perplexity, разрабатывающая поисковую систему на базе искусственного интеллекта, отрицает обвинения и заявляет, что Reddit занимается “вымогательством” и выступает против открытого интернета. SerpApi сообщила CNBC, что “категорически не согласна” с утверждениями Reddit и намерена защищаться в суде.
Это один из многих исков, поданных владельцами контента против ИИ-компаний, которых обвиняют в использовании материалов без разрешения для обучения языковых моделей. В июне Reddit уже подал похожий иск против стартапа Anthropic, который еще рассматривается.
Бен Ли, главный юрист Reddit, заявил, что ИИ-компании “участвуют в гонке за качественным человеческим контентом”, и это давление породило “индустриальную экономику ‘отмывания данных’”. По его словам, скраперы обходят технологическую защиту, чтобы красть данные, а затем продают их клиентам, жаждущим материала для обучения.
Reddit, который содержит более 100 000 тематических сообществ “subreddit”, указал в иске, что посты его пользователей стали наиболее часто цитируемым источником для ИИ-генерируемых ответов на платформе Perplexity.
Социальная сеть также утверждает, что после отправки Perplexity письма с требованием прекратить эти действия, компания увеличила количество цитат из Reddit в 40 раз.
Исследователи ИИ ранее отмечали, что большой объем модерируемых разговоров на Reddit помогает сделать ответы ИИ-чат-ботов более естественными.
В эпоху искусственного интеллекта Reddit стремится использовать свой огромный массив данных, разрешая доступ к нему только через лицензионные соглашения. Компания уже подписала такие соглашения с OpenAI и Google.
В ответ на иск Perplexity в своем посте на платформе Reddit заявила, что не обучает ИИ-модели на контенте, а лишь обобщает и цитирует публичные обсуждения. Поэтому, по их словам, “невозможно” подписать лицензионное соглашение.
“Год назад, после объяснения этого, Reddit настаивал на оплате, несмотря на то, что мы законно получали доступ к данным. Подчиняться силовой тактике - не наш стиль ведения бизнеса”, - говорится в заявлении Perplexity.
В феврале операционный директор Reddit Джен Вонг сообщила, что лицензионные сделки по ИИ с Google и OpenAI составляют почти 10% доходов компании.