纽约时报诉 OpenAI：生成式 AI 时代的数据陷阱与法律边界

2024-11-06
上海
本文字数：6248 字
阅读完需：约 20 分钟

引言

在 AI 技术日益渗透各个行业的今天，著作权争议成为了全球 AI 公司面临的重大法律挑战。越来越多的 AI 公司因涉嫌未经许可使用受版权保护的内容而被起诉，著作权法在这个急速发展的时代中逐渐成为焦点，甚至是争议的核心。

2024 年 6 月，美国唱片工业协会（RIAA）联合索尼音乐娱乐公司、环球音乐集团和华纳唱片公司等对 AI 初创企业 Suno 和 Udio 提起诉讼，指控它们未经授权使用唱片公司的音频资料训练 AI 模型，涉嫌侵权。这起案件中的判决结果可能会直接影响 AI 音乐产业的未来走向。如果法院最终判定这是合理使用，AI 公司将不再需要与版权方进行谈判；反之，这意味着 AI 企业必须积极寻求合作，重新定义其商业模式。类似的情况并非首次发生，2023 年 12 月，《纽约时报》就曾起诉 OpenAI 和微软，指控其未经授权使用报社的文章进行大模型训练。这不仅是一次高调的版权诉讼，更是 AI 产业数据风险的一次重要试金石。此次诉讼不仅要求 OpenAI 销毁使用未经授权内容训练的模型，还涉及数十亿美元的赔偿要求。这场法律战背后的深层次问题，反映了生成式 AI 技术在数据使用和版权保护之间的激烈冲突，成为 AI 产业发展道路上的关键拐点。随着生成式人工智能的普及，数据来源问题成为了 AI 模型的核心法律风险，AI 训练中的数据合规性、版权争议以及隐私问题正前所未有地聚焦在公众视野中。

不仅是在美国，中国的法院也在积极应对 AI 与著作权纠纷。随着 AI 生成内容技术的快速发展，中国的法律体系同样面临新的挑战和适应压力。近年来，一系列标志性的诉讼案件正在逐步塑造中国在这一领域的法律框架。

2023 年，北京互联网法院首例确认 AI 生成内容构成作品的案件成为 AI 生成作品著作权保护的重要里程碑。在这起案件中，原告通过文生图模型 Stable Diffusion 生成了一张人物图片，并在网络平台上发布。被告未经授权使用了这张图片，原告因此提起诉讼，主张其作品署名权和信息网络传播权受到了侵犯。这一案件引发广泛关注的原因在于，北京互联网法院在一审判决中首次确认 AI 生成的图片构成著作权法意义上的“作品”。这意味着 AI 生成的内容在中国法律下可以享有与人类创作的作品相同的版权保护。这种确认不仅对于个案有着重要意义，还为未来的 AI 生成内容的法律地位奠定了基础。在这一判例的基础上，AI 生成的图片、视频、音乐等内容，若满足独创性要求，将有可能得到法律的著作权保护。无独有偶，2024 年 2 月，广州互联网法院处理了全球首例 AI 侵权经典 IP 的案件，进一步强化了 AI 在著作权领域的法律纠纷焦点。此案涉及著名的“奥特曼”系列形象，原告拥有奥特曼系列形象的著作权独占授权。而被告则是经营一家提供 AI 生成绘画和对话功能的网站，用户通过支付“算力”来生成与奥特曼形象实质性相似的图片。法院认定，被告的平台侵犯了原告对奥特曼形象的复制权和改编权。这一案件的判决，表明即使 AI 生成的图像是基于用户的提示词生成的，如果与原作品构成实质性相似，依然可能构成侵权。

这些案件为中国的 AI 著作权保护与侵权纠纷提供了初步的法律实践基础，也反映了中国在这一领域日益严格的监管态度。通过这些案例，可以看出中国在应对 AI 生成内容带来的法律挑战时，更多倾向于将其纳入现有的著作权法框架进行管理。法院的判决不仅是对具体案件的回应，更是对未来 AI 内容合法性和版权规则的重要指导。

在全球范围内，这些案件无不指向同一个问题：在 AI 大规模生成内容的时代，现有的著作权法是否已经跟不上科技的步伐？AI 工具生成的内容如何与传统的创作保护机制共存？这些问题不禁让人质疑，著作权法在 AI 浪潮中是否已名存实亡？

不言而喻，AI 训练数据的版权纠纷已引发广泛关注，无论是国内还是国际市场，确保数据来源的合法性都已成为大模型产业不可回避的核心问题。对于需要海量数据支持的企业来说，如何合法合规地使用数据，是保障自身发展与创新的关键。接下来，本文将深入探讨大模型产业在训练数据时可能面临的法律风险、注意事项以及应对措施，帮助企业在技术创新的同时，规避法律风险，实现合规发展。

一、纽约时报诉 OpenAI 案的背景与核心争议

案件背景：新闻巨头对抗科技巨头

《纽约时报》是美国新闻界重要标杆，1851 年由雷蒙德和琼斯创办，初名《纽约每日时报》，后于 1859 年更名。阿道夫・奥克斯在 1896 年收购濒临破产的《纽约时报》，确立 “力求真实，无畏无惧，不偏不倚” 等报道原则，并进行系列改革，使其发行量上升。该报以高质量新闻报道著称，涵盖多领域，风格严肃，被称为 “灰色女士”，是高级报纸代表，曾深入报道重大历史事件，获上百次普利策奖。在新闻生产上，有大量记者奔赴各地采集素材，数百名编辑严格审核，确保可信度和权威性。

随着互联网发展，多数用户线上获取新闻，《纽约时报》也积极数字化转型，1996 年网站上线，探索新业务模式。但数字化时代，版权保护和商业化问题突出。《纽约时报》认为需保护版权、控制内容使用，否则收入减少难维持高额投入。第三方商业使用其新闻内容须获许可，时报通过版权清算中心为教学、学术等有限用途许可。《纽约时报》在新闻领域的坚持和对版权的重视，为行业树立典范。

OpenAI 由埃隆・马斯克、山姆・阿尔特曼等知名人士发起创立于 2015 年，旨在推动人工智能发展并确保其造福人类。其成立初衷是专注于开发对人类有益的人工智能技术，并且是一个非营利性的组织。然而物是人非，如今已发展成为价值数十亿美元的盈利性企业，它通过由大语言模型支持的商业服务收获了高额营收。在这一发展过程中，微软扮演着重要角色。微软作为 OpenAI 唯一的云计算提供商，双方合作设计了由微软云计算平台 Azure 提供支持的超级计算系统。这个强大的系统被用于训练自 GPT-1 之后的所有 OpenAI GPT 模型，为 OpenAI 的技术进步提供了坚实的基础。

2023 年 2 月，微软和 OpenAI 再度携手，在微软搜索引擎上发布了由 GPT-4 支持的生成式人工智能聊天机器人 “Bing Chat”。同时，二者还联合推出插件 “Browse with Bing”。这个插件使得用户无需访问新闻机构自己的网站，直接在微软的网站和应用程序上就能查询到诸多报道的内容。这一举措在为用户带来便利的同时，也引发了一些关于新闻机构权益和内容传播方式的讨论。这种合作模式既展示了科技与人工智能的强大力量，也给传统新闻行业带来了新的挑战和机遇。

2023 年 12 月 27 日，纽约时报公司向 OpenAI 及微软提起诉讼，这一爆发象征着新闻行业对生成式 AI 模型大规模使用新闻内容进行训练的不满与反击。这也是 AI 时代背景下新闻行业与科技行业间一场具有标志性意义的版权纠纷。

据诉讼文件显示，《纽约时报》认为 OpenAI 在训练 AI 模型时，未经授权或未支付费用，使用了其数百万篇文章，并试图通过这些内容开发出与传统新闻业竞争的替代品。在他们看来，OpenAI“搭便车”利用了新闻媒体的巨额投入，却未对其贡献进行任何补偿。这一行为不仅削弱了新闻机构的竞争力，也损害了版权人的合法权益。

核心争议：合理使用还是版权侵权？

案件的核心争议围绕着 OpenAI 使用《纽约时报》新闻内容训练模型的行为是否属于“合理使用”展开。在美国的著作权法框架下，合理使用条款允许在某些情况下未经版权持有人许可使用其作品，如用于教育、批评、新闻报道等。这条款的存在旨在平衡创作者的权益与公众获取知识的权利。然而，生成式 AI 的使用场景与传统的合理使用案例不同，尤其是在商业应用中。

OpenAI 在其技术开发中，确实从包括新闻内容在内的大量网络文本中汲取了数据，这些数据成为其生成文本模型的重要基础。OpenAI 认为，这种数据使用属于“合理使用”（fair use），因为 AI 模型生成的文本是新的创作，并非直接复制或再现原始内容。然而，《纽约时报》则主张，OpenAI 未经授权使用了受版权保护的作品，且这些模型并非用于非商业目的，而是为了创造一种可能与传统新闻内容竞争的产品，直接威胁到新闻业的生存。

在“合理使用”的四项评估标准中，最重要的争论集中在“使用的性质与目的”及“对市场的潜在影响”这两个方面：1）使用的性质与目的：OpenAI 是否属于创新性或变革性使用？如果 AI 生成的新文本属于原始新闻内容的替代品，则这一行为更可能被视为侵权而非合理使用。OpenAI 声称其生成内容是对原材料的改造，而不是简单的复制或替代。2）对市场的潜在影响：AI 工具生成内容是否会替代传统新闻报道，尤其是在 OpenAI 和类似 AI 工具广泛应用的背景下，这可能直接影响《纽约时报》的商业模式与市场份额。如果法院认定 AI 生成内容对新闻市场产生实质性影响，OpenAI 可能难以通过合理使用的辩护。

二、AI 大模型训练中数据来源的法律风险

版权问题

本案的核心法律问题是版权。在美国，版权法保护“原创作品的固定表达形式”，而《纽约时报》的新闻文章无疑属于这一保护范围。OpenAI 在训练过程中，如果未经许可使用了这些文章，可能构成了版权侵权。值得注意的是，即便这些文章是公开发布的，它们的版权依然归原作者或发布方所有，未经授权的复制、传播或再利用，都可能引发法律问题。

此外，现有 AI 模型依赖大量未经许可的数据进行训练，这使得 AI 公司与版权方的关系变得紧张。像新闻媒体这种依赖内容生产和版权保护的行业，势必对 AI 模型的训练方式保持警惕。此次《纽约时报》诉讼案可能会对未来 AI 模型的训练机制和数据使用方式产生深远影响。

个人信息与数据保护问题

虽然此次诉讼的重点是版权，但 AI 训练中数据的隐私问题同样不容忽视。生成式 AI 的模型训练依赖于海量数据，其中可能涉及个人隐私信息的处理。这使得 AI 公司在全球范围内面临更加复杂的法律风险。例如，欧盟《通用数据保护条例》（GDPR）严格规定了个人数据的收集和处理方式。如果 AI 公司在训练中使用了含有个人信息的数据，未能确保这些数据的合法来源，将可能面临巨额罚款。在此次《纽约时报》提起的诉讼中，首先引人关注的一点是《纽约时报》的文章与 ChatGPT 所输出的内容在形式上呈现出较高的重合度。具体而言，在 GPT-3 训练权重极高的数据集 —— 公共爬虫网站 Common Crawl 当中，网址为 www.nytimes.com 的域名在众多数据来源里具有极为突出的代表性。它的重要程度仅仅次于维基百科以及美国专利文件的数据库，在整体排名中位列前茅。从 Common Crawl 所提供的 2019 年的一个英文子集快照里，可以清晰地看到《纽约时报》的内容占据了多达 1 亿个 tokens。

个人信息问题在数据标注、存储、传输等环节中同样存在挑战。企业需要严格审查所使用数据的合法性，尤其是在跨境数据传输的情况下，必须遵守当地的数据保护法律。

三、AI 模型训练中数据使用的合法性与合规性梳理

数据授权与合规

在 AI 模型训练的过程中，获得数据的合法授权是确保合规的关键。企业在使用第三方数据时，需确保获得了明确、持续有效的授权。以《纽约时报》为例，如果 OpenAI 事先与其达成协议，明确规定新闻内容的使用方式，那么双方的冲突可能完全避免。

在实践中，企业应遵守以下几项基本原则：

授权协议：与数据提供者签订详细的授权协议，确保数据的合法使用。
用途明确：明确数据的使用范围和目的，尤其是在涉及生成式 AI 的模型训练时。
时间限制：规定数据的使用期限，确保不超出合同约定的范围。
数据删除权：赋予数据提供者在必要时要求删除或停止使用其数据的权利。

数据清洗与合规流程

为了避免法律风险，企业在模型训练前后需建立严格的数据清洗与合规流程。这包括：

数据来源审查：企业应对所有用于训练的数据进行审查，确保数据来源合法，避免使用未经授权的数据。
数据匿名化：对涉及个人隐私的数据，企业必须采取数据匿名化处理，以保护个人身份信息。
合规培训：企业应对数据工程师、开发人员等进行定期合规培训，确保他们了解并遵守相关法律法规。

四、国际视角：不同地区法律对 AI 数据使用的影响

AI 模型的训练涉及全球数据流动，因此企业在不同地区的数据使用也需遵循各自的法律规定。例如：

欧盟 GDPR 与数据保护

欧盟的 GDPR 对 AI 公司来说，是一项极具挑战性的法律法规。GDPR 要求在收集和处理个人数据时，必须获得数据主体的明确同意，并确保数据处理符合正当性、透明性和数据最小化原则。任何违反这一条例的行为都可能导致高额罚款（最高可达全球营业额的 4%）。因此，AI 公司在收集、存储和使用欧洲用户数据时，需确保其合规操作。

美国版权法与“合理使用”原则

在美国，版权法允许在某些情况下进行“合理使用”（fair use），包括批评、评论、新闻报道、教学等。但“合理使用”在 AI 数据训练中的适用性仍存在较大争议。AI 模型是否可以通过“合理使用”获取网络公开数据进行训练，是此次纽约时报诉讼案的核心之一。若法院判定 OpenAI 的行为不符合“合理使用”，未来 AI 公司将面临更严格的版权合规要求。

五、未来展望：纽约时报诉 OpenAI 案的潜在影响

《纽约时报》诉 OpenAI 案不仅是新闻行业与 AI 行业之间的一场争端，更是 AI 行业未来发展方向的风向标。该案件的裁决可能会深刻影响 AI 技术的应用和发展，尤其是大模型的训练方式和数据来源，因为其判决结果可能会影响未来如何定义 AI 模型训练中的“合理使用”范围。

对于 AI 公司而言，该案件揭示了在训练模型时，使用版权内容所带来的巨大法律风险。AI 模型的商业化发展在很大程度上依赖于大量未经授权的数据，而这很可能引发类似的版权纠纷，特别是当 AI 生成的内容开始直接与原创内容进行市场竞争时。

从更广泛的角度来看，这起案件也引发了关于如何在数字时代平衡技术创新与版权保护的深层次讨论。随着生成式 AI 模型的广泛应用，版权法的适用性面临巨大的挑战。当前的法律框架是否能够应对 AI 时代的新问题？是否需要制定新的规则来调和科技与版权保护之间的矛盾？这些问题将随着《纽约时报》诉 OpenAI 案的推进而逐渐明朗化，让我们拭目以待。《纽约时报》诉 OpenAI 案给所有 AI 公司，尤其是依赖海量数据进行训练的大模型企业，带来了重要的法律启示。在 AI 技术不断发展的背景下，企业不仅要考虑技术本身的创新，还必须深入理解并遵守相关的法律法规，以确保数据使用的合法性。未经授权使用受版权保护的内容不仅会带来法律风险，还可能对公司的声誉和未来发展造成长期负面影响。对于提供数据服务的公司，如数据采集、数据标注等，案例也揭示了合规数据的重要性。大模型训练需要依赖合法获取的数据源，避免因数据使用不当引发法律纠纷。因此，企业需要在数据的收集、使用和处理过程中建立更加严格的审核机制，确保训练数据来源的合法性，进而规避潜在的法律风险。

版权市场的变化如果法院支持《纽约时报》的诉求，未来 AI 公司在获取训练数据时可能不得不支付高昂的版权费用，甚至要避免使用新闻媒体等内容生产者的数据。这将导致内容创作者和 AI 公司之间的合作关系发生变化，数据市场将更加规范，版权方的谈判地位也将提升。
AI 产业的合规成本上升随着法律环境的变化，AI 公司可能不得不增加合规成本，包括聘请版权律师、进行数据来源审查、建立更为严格的数据合规流程等。这对中小型 AI 企业来说将是一个严峻挑战，可能加剧 AI 行业的两极分化。

结语：AI 时代的法律挑战与机遇并存

随着 AI 技术的不断发展，法律的滞后性与技术的前瞻性之间的矛盾将愈加凸显。生成式 AI 技术与内容知识产权之间的法律较量，随着《纽约时报》的一纸诉状正式浮出水面。诚然，这一复杂的局面难以在短时间内理清头绪，毕竟缺乏参考案例，短时间内难以得出结果。然而，为了实现构建安全人工智能的终极目标，这些问题都是前行道路上必须加以解决的。纽约时报诉 OpenAI 案是 AI 领域面临的法律挑战的一个缩影，它提醒我们，无论技术如何进步，合法性与合规性始终是 AI 公司在创新过程中不可忽视的底线。未来的 AI 产业，既需要技术上的突破，也需要在法律合规方面寻求更加平衡的解决方案。在探索中前行，这又何尝不是人类自我提升的一个历程呢。

发布于: 刚刚阅读数: 6

原文链接:【http://xie.infoq.cn/article/c02e8e9af045b2b54b753d269】。文章转载请联系作者。

本原智数

关注

本原智数，提供大模型一站式解决方案 2024-10-12 加入

本原智数致力于高质量数据资源建设及开发利用，提供以数据为核心的大模型一站式解决方案。公司聚焦于互联网、教育科技、自动驾驶、人工智能和大模型的数据治理和产业服务

发布

暂无评论

创作场景