全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

值班员爱家 9月2日最新消息: 依照人工智慧文本侦测器 Originality.AI 的新一代统计数据，亚洲地区前 1000 个中文网站近 20% 制止食腐机器搜集互联网统计数据用作 AI 服务项目。

相片

在缺少明晰法律条文或市场监管明确规定管理工作 AI 采用著作权金属材料的情况下，大小不等的中文网站都另行采取行动。

OpenAI 于 8 月底面世了其 GPTBot 食腐，并正式宣布所搜集到的统计数据「可能被用作改良今后数学模型」，允诺须建订阅文本并辅导中文网站怎样明令禁止该食腐。随即，包括《华盛顿邮报》、法新社和 CNN 等著名新闻报道中文网站开始制止 GPTBot，因此很多其他中文网站也仿效。

依照 Originality.AI 的统计数据，在亚洲地区前 1000 个最畅销的中文网站中，制止 OpenAI ChatGPT bot 的数目从 8 月 22 日 9.1％减少到 8 月 29 日 12％。封堵 ChatGPT bot 的最小中文网站是Amazon、Quora 和 Indeed。统计数据表明，更小型的中文网站更有可能已经封堵了 AI 食腐机器。

Common Crawl Bot 是另一个不定期搜集这类 AI 服务项目采用的 Web 统计数据的食腐流程，在亚洲地区前 1000 个世界顶级中文网站上被过滤率仅 6.77％。

任何人您能从 Web 应用流程出访的网页都能被食腐流程「截取」，它就像应用流程那样运转，但将金属材料储存在统计资料库中而不是向使用者表明。

这就是浏览器如 Google 搜集重要信息的形式。中文网站拥有者始终有潜能正式发布命令，说那些食腐流程返回他们的中文网站，但密切合作全然是强迫物理性质，因此蓄意操作员能忽视那些命令。

谷歌和其他互联网公司认为其统计数据食腐工作属于合理采用范围，但很多出版商和知识材。

自从 Google 和其他搜索中文网站将使用者引导至其支持广告的中文网站后，一些出版商至少认为允许搜索食腐流程进入其中文网站具有某种价值。然而，在 AI 时代中，出版商更积极地制止食腐流程进入其中文网站，因为暂时没有将其统计数据交给 AI 公司的好处。很多媒体公司目前已经开始与 AI 公司就以费用向其授权统计数据进行谈判，但那些谈判还处于早期阶段。

在过去 20 年中被 Google 拿走了一些东西的媒体机构对 OpenAI 等快速商业化的 AI 服务项目持敌意和「我们不会再上当」的态度。据 The Information 报道，OpenAI 预计在今后一年内将带来超过 10 亿美元的收入。

新闻报道媒体公司已经开始努力找到平衡点，在接受和抵制人工智慧之间挣扎。一方面，该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。

另一方面，在人们对新闻报道媒体公司的信任度处于历史低点之际，将人工智慧引入新闻报道编辑室的工作流程，会带来具有挑战性的道德问题。

而如果太多的互联网阻碍人工智慧食腐，它的拥有者可能会发现更难改良和更新他们的人工智慧产品——而且好的统计数据也变得越来越难找到。

Originality.AI 的发现表明，前 1000 个中文网站中 GPTBot 的过滤率每周减少约 5%。