Reddit подал в суд на Perplexity за кражу контента

Социальная сеть Reddit подала судебный иск против компании Perplexity, обвинив ее в незаконном сборе пользовательских постов для обучения своей ИИ-модели. Это очередное столкновение между владельцами контента и индустрией искусственного интеллекта за права на данные.

Иск, поданный в федеральный суд Нью-Йорка, также назвал трех соответчиков, которые, по мнению Reddit, помогали Perplexity собирать данные: литовскую компанию Oxylabs, «бывшую российскую ботнет-сеть» AWMProxy и техасский стартап SerpApi.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Reddit утверждает, что эти три компании смогли извлечь защищенный авторским правом контент, «скрывая свою личность, местоположение и маскируя свои веб-скраперы под обычных пользователей».

Perplexity, разрабатывающая поисковую систему на базе искусственного интеллекта, отрицает обвинения и заявляет, что Reddit занимается «вымогательством» и выступает против открытого интернета. SerpApi сообщила CNBC, что «категорически не согласна» с утверждениями Reddit и намерена защищаться в суде.

Это один из многих исков, поданных владельцами контента против ИИ-компаний, которых обвиняют в использовании материалов без разрешения для обучения языковых моделей. В июне Reddit уже подал похожий иск против стартапа Anthropic, который еще рассматривается.

Бен Ли, главный юрист Reddit, заявил, что ИИ-компании «участвуют в гонке за качественным человеческим контентом», и это давление породило «индустриальную экономику ‘отмывания данных'». По его словам, скраперы обходят технологическую защиту, чтобы красть данные, а затем продают их клиентам, жаждущим материала для обучения.

Reddit, который содержит более 100 000 тематических сообществ «subreddit», указал в иске, что посты его пользователей стали наиболее часто цитируемым источником для ИИ-генерируемых ответов на платформе Perplexity.

Социальная сеть также утверждает, что после отправки Perplexity письма с требованием прекратить эти действия, компания увеличила количество цитат из Reddit в 40 раз.

Исследователи ИИ ранее отмечали, что большой объем модерируемых разговоров на Reddit помогает сделать ответы ИИ-чат-ботов более естественными.

В эпоху искусственного интеллекта Reddit стремится использовать свой огромный массив данных, разрешая доступ к нему только через лицензионные соглашения. Компания уже подписала такие соглашения с OpenAI и Google.

В ответ на иск Perplexity в своем посте на платформе Reddit заявила, что не обучает ИИ-модели на контенте, а лишь обобщает и цитирует публичные обсуждения. Поэтому, по их словам, «невозможно» подписать лицензионное соглашение.

«Год назад, после объяснения этого, Reddit настаивал на оплате, несмотря на то, что мы законно получали доступ к данным. Подчиняться силовой тактике — не наш стиль ведения бизнеса», — говорится в заявлении Perplexity.

В феврале операционный директор Reddit Джен Вонг сообщила, что лицензионные сделки по ИИ с Google и OpenAI составляют почти 10% доходов компании.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.