纽约时报:请勿使用我们的内容来训练AI系统

发布:泰安小程序开发 更新时间:2023-10-04 10:06

尽管谷歌希望所有在线内容都可用于AI训练,但纽约时报明确表示不同意。

时报已经更改了其服务条款,旨在阻止AI公司使用该媒体组织的内容来训练他们的系统。

我们为什么关心这个问题。 许多大型语言模型是使用网站内容进行训练的(请参见:搜索谷歌的C4数据集中的1570万个网站)。虽然谷歌正在探索超越robots.txt的替代或补充方式来控制爬行和索引,但许多品牌(例如Reddit)现在明确表示,他们不希望他们的内容被用来改进Google、微软和OpenAI的产品并增加利润,至少不是没有报酬的情况下。您可能希望考虑在您的网站条款页面上添加一些类似的与AI相关的信息。

发生了什么变化。 纽约时报于8月3日更新了其服务条款页面。它包括了适用于其内容的与AI相关的附加条款(其定义为“包括但不限于文本、照片、图像、插图、设计、音频剪辑、视频剪辑、外观感觉、元数据、数据或编译”)。 在“禁止使用服务”部分:

  • (3) 使用内容开发任何软件程序,包括但不限于训练机器学习或人工智能(AI)系统。

AI公司会为出版商提供补偿吗? OpenAI和美联社上个月签署了一项协议。OpenAI获得了美联社自1985年以来的新闻文章档案的许可,用于训练。

谷歌和纽约时报公司已经有一项有利可图的“商业协议”,但该协议是关于共同开发“内容分发和订阅工具”。

微软也承诺与出版商分享某种形式的收入。然而,大部分好处显然将流向其Start计划的成员。