Содержание
Грядет серьезная борьба за данные, сгенерированные пользователями в интернете
4 июня 2025 года Reddit подал иск против ИИ-компании Anthropic в федеральный суд Сан-Франциско.
В жалобе утверждается, что стартап незаконно использовал данные Reddit для обучения своих языковых моделей, включая флагманского чат-бота Claude, без разрешения и без какой-либо оплаты.
Почему Reddit в ярости
Reddit подчеркивает, что пользовательский контент площадки — это ценный актив, который компания уже продает другим игрокам на ИИ-рынке. Например, заключены многомиллионные сделки с Google и OpenAI, на фоне чего действия Anthropic выглядят как воровство ресурсов, способных приносить десятки миллионов долларов в год.
Нашумевший генератор картинок в ChatGPT стал доступен бесплатно. Но с лимитом — 3 запроса в деньtproger.ru
В иске говорится, что Anthropic начала парсить Reddit как минимум с декабря 2021 года, несмотря на ограничения, прописанные в robots.txt и в пользовательском соглашении, которое запрещает автоматизированный сбор данных и их коммерческое использование без согласия.
Двуличие Anthropic?
Особенно Reddit возмущен тем, что в июле 2024 года Anthropic якобы официально заявила о прекращении сбора данных, но серверные логи Reddit показали сотни тысяч запросов от ботов компании уже после этого заявления.
Более того, в иске Reddit приводит скриншот разговора с самим Claude, в котором ИИ якобы «подтверждает», что обучался на данных Reddit.
Конечно, такие утверждения от LLM могут быть ложными — они подвержены галлюцинациям — но это используется как доказательство публичного признания.
Чего требует Reddit
Reddit просит суд:
- Обязать Anthropic удалить все данные Reddit из своих систем.
- Остановить коммерческое использование любых моделей, обученных с использованием этих данных (включая Claude).
- Взыскать всю прибыль, полученную за счет использования данных Reddit.
- Компенсировать ущерб Reddit и оплатить все судебные расходы.
- Назначить штрафные санкции за умышленное нарушение.
Что это значит для индустрии
Этот иск — веха в конфликте между генеративным ИИ и интернет-платформами, предоставляющими контент.
Reddit уже пошел по пути монетизации своих данных и теперь пытается установить прецедент, согласно которому крупные ИИ-компании не смогут безнаказанно использовать пользовательский контент.
Если суд удовлетворит требования Reddit, это может привести к массовому пересмотру практик сбора данных и ограничить обучение ИИ на открытых источниках без лицензий. А Claude — один из главных конкурентов ChatGPT — может оказаться под угрозой закрытия.
Контекст
Anthropic — один из самых финансируемых ИИ-стартапов, с инвестициями от Amazon, Google и прочих IT-гигантов. Reddit же недавно вышел на биржу и стремится максимизировать стоимость своих данных.
Идем на рекорд: рунет снова упал, спустя неделю после прошлого раза. Что известно на данный момент?tproger.ru
В условиях ИИ-бума, это дело может стать определяющим в вопросе: кто владеет интернет-контентом и кто имеет право обучать на нем модели.
Прав ли Reddit?Да, данные ее пользователей — за них надо платитьНет, это только помешает развитию ИИВообще, данные сгенерировали пользователи. Им решать