机器之心校对
编辑:杜伟、梓文
你的就是我的,我的还是我的。
在生成式 AI 盛行的全新时代,小型信息技术子公司在采用新浪网文本时正在奉行「照我说的做,而不是做我所做的」思路。在很大程度上,这种思路能说是一种瓦万以及定价权的误用。
同时,随着大语言数学模型(LLM)成为 AI 发展的主流趋势,无论是小型还是孵化器子公司,都在不失时机地合作开发他们的大数学模型。其中体能训练统计数据是大数学模型能力好坏的重要前提。
近日,根据 Insider 的报道,谷歌全力支持的 OpenAI、Google及其全力支持的 Anthropic 多年来一直在采用其它网站或子公司的新浪网文本来体能训练她们的生成式 AI 数学模型。那些都是在没有征询具体许可的情况下顺利完成的,并将构成一场酝酿中的法律斗争的一部分,决定了网络的未来以及DMCA在这一新时代的应用形式。
那些小型信息技术子公司可能会争论说她们是合理采用,与否真的如此有待深究。但是她们却不会让他们的文本被用来体能训练其它 AI 数学模型。所以不禁要问,为什么那些小型信息技术子公司却能在体能训练大数学模型时采用其它子公司的新浪网文本呢?那些子公司很聪明,但也非常伪善
小型信息技术子公司采用别人新浪网文本却不允许别人采用他们的,这种说法与否有确切证据,这能从她们一些商品的服务和采用条文中看出败象。
首先来看 Claude,它是 Anthropic 推出的近似于 ChatGPT 的 AI 副手。该系统能顺利完成全文总结、搜索、协助创作、概要、代码等任务。前几日再次升级,将上下文 token 扩展到了 100k,反应速度大大加快。
Claude 的服务项目条文是这样的。你不得以下列形式(这里列出出部分)访问或采用本服务项目,如果那些限制的任何人一项与可接受采用政策不一致或不明确,则以后者遵从为重:合作开发与我们的服务项目竞争的任何人商品或服务项目,包括合作开发或体能训练任何人 AI 或机器学习演算法或数学模型
Claude 服务项目条文地址:https://vault.pactsafe.io/s/9f502c93-cb5c-4571-b205-1e479da61794/legal.html#terms
同样地,Google的生成式 AI 采用条文也是如此,「你不得采用本服务项目来合作开发机器学习数学模型或相关技术。」
Google生成式 AI 采用条文地址:https://policies.google.com/terms/generative-aiOpenAI 的采用条款又怎样呢?与Google类似,「你不得采用本服务项目的输出来合作开发与 OpenAI 竞争的数学模型。」
OpenAI 采用条文地址:https://openai.com/policies/terms-of-use那些公司很聪明,她们知道高质量的文本对于体能训练新的 AI 数学模型至关重要,所以不允许别人用这样的形式采用她们的输出也是合情合理的。但她们却无所顾忌地利用别人统计数据来体能训练他们的数学模型,这又该如何解释呢?
目前,OpenAI、Google和 Anthropic 拒绝了 Insider 的置评请求,并且没有做出任何人回应。
Reddit、推特和其它子公司:受够了
实际上,其它子公司意识到正在发生的事情时并不高兴。今年 4 月,多年来一直被用于 AI 数学模型体能训练的 Reddit 计划开始对其统计数据的访问收费。
Reddit 首席执行官 Steve Huffman 表示,「Reddit 的统计数据语料库非常有价值,因此我们不能把那些价值免费提供给世界上最大的子公司。」同样今年 4 月,马斯克指责 OpenAI 的主要全力支持者谷歌非法采用 Twitter 的统计数据来体能训练 AI 数学模型。「诉讼时间到」,他在推特上写道。
,谷歌表示「这个前提有太多的错误,我甚至不知道从何说起。」OpenAI 首席执行官 Sam Altman 试图通过探索尊重版权的全新 AI 数学模型来深化这个问题。据 Axios 报道,他于近期表示,「我们正在尝试合作开发新的模式,如果 AI 系统采用了你的文本,或者采用了你的风格,你就会因此获得报酬。」
Sam Altman出版商(包括 Insider)都会是既得利益获得者。此外,包括美国新闻集团在内的一些出版商已经在推动信息技术子公司付费采用其文本体能训练 AI 数学模型。
目前 AI 数学模型的体能训练形式「打破」了网络
有前谷歌高管表示这很大有问题。谷歌老将、著名软件合作开发者 Steven Sinofsky 认为,目前 AI 数学模型的体能训练形式「打破」了网络。
Steven Sinofsky他在推特上写道,「过去,爬取统计数据是用来换取点击率的。但现在只是用来体能训练一个数学模型,没有给创作者、版权所有者带来任何人价值。」
也许,随着更多公司的觉醒,生成式 AI 时代这一不均衡的统计数据采用形式会很快被改变。
原文链接:https://www.businessinsider.com/openai-google-anthropic-ai-training-models-content-data-use-2023-6
THE END
投稿或寻求报道:[email protected]