Социальная сеть Reddit подала судебный иск против компании Perplexity, обвинив ее в незаконном сборе пользовательских постов для обучения своей ИИ-модели. Это очередное столкновение между владельцами контента и индустрией искусственного интеллекта за права на данные.
Иск, поданный в федеральный суд Нью-Йорка, также назвал трех соответчиков, которые, по мнению Reddit, помогали Perplexity собирать данные: литовскую компанию Oxylabs, «бывшую российскую ботнет-сеть» AWMProxy и техасский стартап SerpApi.
Узнать подробнее про клуб ShareAI
Reddit утверждает, что эти три компании смогли извлечь защищенный авторским правом контент, «скрывая свою личность, местоположение и маскируя свои веб-скраперы под обычных пользователей».
Perplexity, разрабатывающая поисковую систему на базе искусственного интеллекта, отрицает обвинения и заявляет, что Reddit занимается «вымогательством» и выступает против открытого интернета. SerpApi сообщила CNBC, что «категорически не согласна» с утверждениями Reddit и намерена защищаться в суде.
Это один из многих исков, поданных владельцами контента против ИИ-компаний, которых обвиняют в использовании материалов без разрешения для обучения языковых моделей. В июне Reddit уже подал похожий иск против стартапа Anthropic, который еще рассматривается.
Бен Ли, главный юрист Reddit, заявил, что ИИ-компании «участвуют в гонке за качественным человеческим контентом», и это давление породило «индустриальную экономику ‘отмывания данных'». По его словам, скраперы обходят технологическую защиту, чтобы красть данные, а затем продают их клиентам, жаждущим материала для обучения.
Reddit, который содержит более 100 000 тематических сообществ «subreddit», указал в иске, что посты его пользователей стали наиболее часто цитируемым источником для ИИ-генерируемых ответов на платформе Perplexity.
Социальная сеть также утверждает, что после отправки Perplexity письма с требованием прекратить эти действия, компания увеличила количество цитат из Reddit в 40 раз.
Исследователи ИИ ранее отмечали, что большой объем модерируемых разговоров на Reddit помогает сделать ответы ИИ-чат-ботов более естественными.
В эпоху искусственного интеллекта Reddit стремится использовать свой огромный массив данных, разрешая доступ к нему только через лицензионные соглашения. Компания уже подписала такие соглашения с OpenAI и Google.
В ответ на иск Perplexity в своем посте на платформе Reddit заявила, что не обучает ИИ-модели на контенте, а лишь обобщает и цитирует публичные обсуждения. Поэтому, по их словам, «невозможно» подписать лицензионное соглашение.
«Год назад, после объяснения этого, Reddit настаивал на оплате, несмотря на то, что мы законно получали доступ к данным. Подчиняться силовой тактике — не наш стиль ведения бизнеса», — говорится в заявлении Perplexity.
В феврале операционный директор Reddit Джен Вонг сообщила, что лицензионные сделки по ИИ с Google и OpenAI составляют почти 10% доходов компании.

