Encyclopedia Britannica и Merriam-Webster подали иск к OpenAI в федеральный суд Манхэттена. Истцы утверждают, что их материалы использовали для обучения моделей без разрешения — и настаивают на компенсации и запрете.
Encyclopedia Britannica и её дочерняя компания Merriam-Webster подали иск против OpenAI в федеральный суд Манхэттена. Суть претензий — использование контента энциклопедии и словаря для обучения моделей искусственного интеллекта без согласия правообладателей.
В чём претензии и чего добиваются истцы
В иске говорится, что для обучения моделей могли использоваться почти 100 000 онлайн-материалов: статьи, энциклопедические справки и словарные определения. По позиции истцов, это не «случайные совпадения», а системное использование защищённых текстов.
Отдельный блок претензий касается товарного знака. Britannica утверждает, что ответы ChatGPT могут создавать у пользователей ложное впечатление, будто энциклопедия одобряет подобное использование материалов. Дополнительный риск — когда энциклопедия фигурирует как источник даже там, где ответ модели содержит ошибки: это бьёт по доверию к бренду, хотя сама Britannica ответ не писала.
В качестве требований заявлены:
- компенсация убытков;
- судебный запрет на дальнейшее использование материалов на заявленных условиях (инъюнкция).
Почему спор упирается в «память» модели
Одна из ключевых идей иска — утверждение, что модель GPT-4 могла «запомнить» значимую часть защищённого контента Britannica и по запросу воспроизводить большие фрагменты почти дословно. Это важно, потому что в таких делах обсуждается не только сам факт обучения на данных, но и вопрос: можно ли считать внутренние параметры модели формой хранения произведения, если оттуда удаётся восстановить текст.
Истцы указывают, что в отдельных сценариях пользователю становится проще получить нужное содержание прямо в ответе ИИ — и не переходить на сайты правообладателя. Для медиа и справочных проектов это прямой удар по трафику и монетизации.
Суды уже спорят между собой — и это влияет на индустрию
В публикации отмечается, что суды в разных юрисдикциях оценивают похожие ситуации по-разному. В одном из упомянутых кейсов суд в Мюнхене пришёл к выводу, что если произведение можно восстановить из параметров модели, это может иметь значение для авторского права и требований о запрете и компенсации. В другом — Высокий суд Англии и Уэльса по делу Getty Images против Stability AI, напротив, счёл, что веса модели не являются «незаконной копией», потому что не содержат произведения напрямую.
На фоне таких расхождений компании всё чаще закладывают юридические риски в продуктовые решения: от политики источников данных до того, как именно модель работает с текстом (например, «суммаризирует» или способна выдавать длинные фрагменты).
Что это значит для обычных пользователей, бизнеса и разработчиков
Для пользователей такие иски обычно заканчиваются незаметными, но важными изменениями: модели становятся осторожнее с длинными цитатами, чаще отказываются воспроизводить большие фрагменты и активнее «пересказывают своими словами».
Для компаний и команд разработки последствия практичнее:
- усиливается спрос на легальные датасеты и лицензирование контента, особенно для текстовых моделей;
- вырастает роль прозрачности: откуда взялись данные, можно ли их удалить, как отрабатываются запросы правообладателей;
- становится важнее контроль выдачи: ограничение дословного воспроизведения, фильтры, защита от утечек фрагментов;
- для корпоративных решений чаще выбирают сценарии, где модель опирается на свою базу знаний, а на внутренние документы отвечает через поиск и цитирование по правилам компании — так проще управлять рисками.
Дальнейшее развитие дела может стать ещё одним ориентиром для рынка: где проходит граница между обучением, «знанием» модели и недопустимым копированием — особенно если речь идёт о справочниках, словарях и других источниках, которые традиционно живут за счёт точности и репутации.
