索赔 649 亿!GitHub被指控侵犯代码版权,是开源社区“寄生虫”

2022-12-29 0 440

译者 | 角盘兰

一名 20 年迈开放源码合作开发人员:GitHub Copilot 是开放源码街道社区的“病菌”。

GitHub 遭遇自发性控告,赔偿 647 亿

GitHub 和它的控股公司谷歌,和 OpenAI,已经开始面临几项自发性民事诉讼。民事诉讼中,各阶层合作开发人员们控告 OpenAI 被控违背开放源码许可证。合作开发人员们指出,OpenAI 和谷歌采用她们重大贡献的标识符体能训练私有 AI 辅助工具 GitHub Copilot。

据介绍,该民事诉讼已递交到英国加利福尼亚州南区高等高等法院,明确要求高等法院核准 90 万英镑(约 649 亿港币)的原则上侵害赔偿款。

依照自发性民事诉讼文档:“每每 Copilot 提供更多违法输入,它就违背第 1202 条四次,即递送没(1)标明原文,(2)著作权通告,(3)许可证条文的许可证金属材料。”

“因而,假如每一采用者在采用 Copilot 的整座操作过程中(晚期采用者采用 Copilot 最胼足蝠达 15 个月半之久)只接到两个违背第 1202 条的输入,那么 GitHub 和 OpenAI 就违背了 DMCA 360 亿次。每天违背的最高原则上赔偿款为 2500 英镑,换算成后相等于 90 万英镑。”

自发性民事诉讼文档:

https://www.prnewswire.com/news-releases/joseph-saveri-law-firm-and-matthew-butterick-file-class-action-lawsuit-against-github-microsoft-and-openai-over-violations-of-open-source-licenses-arising-from-github-copilot-an-ai-based-product-301668255.html

GitHub Copilot 工程项目开启于去年 6 月,其机能是向 GitHub 采用者提供更多标识符提议和远距机能。Codex 是由 OpenAI 开发、并赢得谷歌许可证的 AI 控制系统,Copilot 的每项机能便是如前所述 Codex AI。

OpenAI 声称,Codex 体能训练自数百万个公共标识符仓库,堪称“标识符公平应用的变革性案例”。但 GitHub 合作开发人员们却对此嗤之以鼻,指出 Codex 违背了她们的开放源码许可证条文。这些许可证证虽然允许各方对标识符进行非商业性递送,但却不得修改,而且还有保留原译者姓名在内的其他一些明确要求。

律师兼合作开发人员Matthew Butterick领导了这场自发性民事诉讼行动。

Matthew Butterick是一名从业 20 多年的老合作开发人员。他的自我介绍显示,Matthew Butterick 从 1998 年起就参与开放源码软件重大贡献了,他曾在 Red Hat 工作过两年,发布过不少开放源码软件,最近,他又成了 Racket 的重大贡献者。

去年 6 月,Matthew Butterick 写了一篇关于 GitHub Copilot 法律问题的文章,该文直指 GitHub Copilot 对开放源码许可证证处理不当的问题。

近期,他决定再推进下一步行动——他重新激活了自己的加利福尼亚州律师资格证书,并力邀约 Joseph Saveri 律师事务所与他一道组织这次自发性民事诉讼。

Butterick 在一份新闻稿中指出,Copilot 从一开始就明显存在法律问题。“作为拥有多年经验的开放源码合作开发人员,我在第一次试用时就感受到了其中的问题。而且相信其他很多合作开发者也跟我一样,发现 Copilot 不对劲。结合自身法律背景,我觉得有必要拿起法律武器支持开放源码街道社区。”

其他 Copilot 采用者也在自己的社交平台中吐槽,Copilot 在所生成的标识符中采用了错误的许可证证,而

索赔 649 亿!GitHub被指控侵犯代码版权,是开源社区“寄生虫”
索赔 649 亿!GitHub被指控侵犯代码版权,是开源社区“寄生虫”

面对关于此次民事诉讼的置评请求,GitHub 方面一名发言人表示,她们致力于通过 Copilot 开展负责任的创新。

早在 2018 年谷歌收购 GitHub 时,很多采用者就对这个全球规模最大的开放源码街道社区将走向何方展开过讨论。谷歌曾在 2000 年代和 1990 年代向开放源码操作控制系统 Linux 发起过一系列攻击,宣称这款控制系统侵害了 235 项谷歌专利。

原告方律师 Joseph Saveri 表示,他感谢合作开发人员和采用者们为这起民事诉讼做出的努力。他还提到,OpenAI、谷歌和 GitHub 绝不可以用这种毫无公平性可言的方式,从开放源码重大贡献者的成果中获利。

“此案是针对 AI 控制系统在科技行业内引发知识侵权争议的第一步。在本案中,AI 控制系统利用了合作开发人员们做出的开放源码编程重大贡献,并将影响到众多创译者。我们是要代表这些创译者们的利益,确保 AI 合作开发企业必须遵照法律明确要求行事。”

此次民事诉讼表明,合作开发人员、艺术家等群体越来越关注 AI 控制系统在未经许可证之下采用她们的标识符、作品或其他数据的问题。图形生成类 AI 辅助工具(包括 DALL-E 和 Stable Diffusion 等)就在采用算法从互联网上抓取数十亿条数据,且完全没考虑过任何许可证或所有权限制。便是由于这种著作权归属争议的存在,Shutterstock 和 Getty Images 等公司才禁止在其平台上采用 AI 生成图像。

Butterick 声称,谷歌将开放源码标识符体能训练而成的 Copilot 作为商业产品提供更多给合作开发人员的行为,不仅侵害了开放源码标识符著作权,也打击了人们参与开放源码街道社区的热情。Butterick 因而指出,微软这种将开放源码标识符与开放源码街道社区强行割裂的行为,有违开放源码编程精神。

Copilot 的问题在哪?

此前,Matthew Butterick 还开设了两个专门针对 GitHub Copilot 的调查网站,调查收集 GitHub Copilot 违背其对开放源码译者和最终采用者的法律义务的线索。

Matthew Butterick 指出,总结而言,Copilot 在控制系统体能训练与控制系统采用方面都存在法律问题。

(备注:以下论断仅代表 Matthew Butterick 个人观点)

控制系统体能训练

绝大多数开放源码软件包是在授权许可证之下发布的,在授予采用者一定权利的同时也明确要求其承担一定义务(例如保留源标识符的精确属性)。而这种授权的合法实现方式,是由软件译者在标识符中声明著作权。

因而,要想采用开放源码软件,大家就必须做出选择:

要么遵守许可证证所规定的义务;要么采用那些属于许可证证例外的标识符(即著作权法所规定的「合理采用」情形)。谷歌和 OpenAI 已经承认,Copilot 和 Codex 是由 GitHub 上开放源码软件的公共 repo 体能训练而成。所以在这两条路里,她们到底要走哪条?

假如谷歌和 OpenAI 决定如前所述各 repo 的开放源码许可证来采用这些体能训练素材,那就得发布大量属性(attribution),这已经算是各类开放源码许可证的底限明确要求了。但截至目前,我们还没看到任何属性声明。

这样一来答案就明确了,谷歌和 OpenAI 必须找到“合理使用”的理由。GitHub 前 CEO Nat Firedman 就曾在 Copilot 的技术预览会上提到,“在公开数据上体能训练(机器学习)控制系统属于合理采用的范畴。”

但真这么简单吗?对于这种法律问题,可不是说属于就属于的。当然,谷歌、OpenAI 和其他多家研究机构一直在强调这种“合理采用”的论点。Nat Firedman 还曾放话说,作为“机器学习街道社区所广泛依赖的”依据,这种“合理采用”办公室有其“法理基础”。然而,软件自由保护组织(SFC)明显不同意他的观点,并明确要求谷歌方面提供更多能支持其立场的证据。

保护组织负责人 Bradley Kuhn 指出:我们曾在 2021 年 6 月私下询问过 Firedman 和其他几位谷歌/GitHub 代表,明确要求她们为 GitHub 的公开法律立场提供更多可靠的参考依据……但她们什么都拿不出来。

为什么谷歌拿不出支持立场的法律依据?因为保护组织说得没错:她们根本找不出依据来。尽管一些高等法院已经考量过相关问题,但目前全美还没哪个判例能够直接解决 AI 体能训练中的“合理采用”问题。

另外,所有涉及“合理采用”的案例均权衡了大量相关因素。即使高等法院最终判定某些类型的 AI 体能训练属于“合理采用”,也不代表其他类型的体能训练就能无脑照办、高枕无忧。就目前来看,我们还不知道 Copilot 和 Codex 到底合不合法,谷歌和 OpenAI 其实也说不准。

控制系统采用

虽然没法确定“合理采用”最终要怎么在 AI 体能训练中落地,但可以想见,其结果并不会影响到 Copilot 采用者。为什么呢?因为采用者只是在采用 Copilot 提供更多的标识符,而这部分标识符的著作权和许可证状态同样模糊不清。

谷歌倒是有自己的说法。2021 年,Nat Friedman 曾声称 Copilot 的输入结果归属于操译者,其性质与采用编译器一样。但 Copilot 已经暗暗给采用者挖好了坑。

谷歌将 Copilot 输出描述为一系列标识符“提议”,并强调不会对这些提议“主张任何权利”。但与此同时,谷歌也不会对由此生成的标识符的正确性、安全性或延伸出的知识产权问题做任何保证。所以只要接纳了 Copilot 的提议,那这些问题就都要由采用者自己承担。

“您需要对自己标识符的安全性和质量负责。我们提议您在采用由 GitHub Copilot 生成的标识符时,采取与采用其他一切非本人所编写标识符相同的防范措施,包括严格测试、IP(知识产权)扫描和安全漏洞跟踪。” ….

有观点指出,Copilot 将著作权遵循义务留给了采用者。随着 Copilot 的不断改进,采用者需要承担的责任也将越来越大。

那这些提议真会惹出麻烦来吗?已经有 Copilot 采用者控诉,Copilot 可能存在一种设计倾向,会从可识别的 repo 处一字不差地照搬标识符。前段时间,得克萨斯农工大学教授 Tim Davis 也列举了不少证据,表明 Copilot 确实原样照抄了他的大段标识符,特别是极具个人风格的/Tim Davis 稀疏矩阵转置/。

可证。根本无一物,拿什么去遵守?

从这个角度看,Copilot 的标识符检索方法就像一颗烟雾弹,下面掩盖的是肮脏的真相:

Copilot 本身,只是连通海量开放源码标识符的一套替代接口。只要用上它,采用者可能就需要承担起标识符原译者提出的许可证义务。意识到这一点,Nat Firedman 所谓 Copilot“不像是编译器”的说法根本不靠谱。毕竟编译器只会改变标识符形式,但绝不会注入新的知识产权属性。谷歌当然也清楚这一点,所以她们并没嘴硬到底,只是把这些细节用小字“略微”说明了一下。

Copilot 的本质:一只“病菌”?

通过将 Copilot 当作海量开放源码标识符的替代接口,谷歌不仅借此切断了开放源码译者与采用者之间的法律关系,甚至建立起新的“围墙花园”——阻止合作开发人员接触传统开放源码街道社区,从而消除了她们为之重大贡献的可能性。随着时间推移,这势必会让开放源码街道社区变得愈发贫乏。采用者的注意力和参与方向将逐渐朝着 Copilot 转移,最终彻底告别开放源码工程项目本身——告别源标识符 repo、告别问题跟踪器、告别邮件列表、告别讨论板。这样的变化必将给开放源码带来痛苦、甚至永远无法挽回的损失。

就连谷歌云计算负责人 Scott Guthrie 最近也承认,虽然谷歌 CEO 纳德拉当初收购 GitHub 时曾承诺“让 GitHub 继续保持开放平台的地位”,但谷歌一刻也没放慢过把 GitHub 服务(包括 Copilot)纳入自家 Azure 云平台的脚步。

Matthew Butterick 表示,包括他自己在内的开放源码合作开发者之所以提出抗议,所图的绝不是钱,只是不想让自己的努力重大贡献被白白浪费掉。开放源码软件的核心在于人,在于由人组成的采用者、测试者和重大贡献者街道社区。便是因为有了这样的街道社区,我们才能以超越自身的方式改进软件,让工作充满乐趣。

Copilot 则向开放源码软件注入了自私的基因:我想要什么,你就得给我什么!Copilot 的提议将开放源码采用者与软件合作开发者彻底割裂开来,导致她们永远不必与街道社区互动、更遑论为更多工程项目做出重大贡献。

与此同时,开放源码软件译者也需要注意到,我们的工作成果被掩盖在了 Copilot 这块大布之下。我们成了牧场里的奶牛、成了《黑客帝国》中为母体供电的电池,我们成了不断为 Copilot 注入资源的“人肉矿脉”。

但就连奶牛也能靠劳动换取牧草和牛棚,而 Copilot 不会对我们的个人工程项目乃至整座开放源码街道社区做出丝毫反哺。

Copilot 建立的围墙花园与开放源码明确对立,而且危害极大。这也是对谷歌当初收购 GitHub 时所做承诺的赤裸背叛。晚期接触过 GitHub 的朋友应该还记得,GitHub 之所以能在受众当中建立起良好的声誉,靠的是真正服务于开放源码合作开发者、培育开放源码街道社区的赤子之心。而 Copilot 的出现显然背离了这一路线,也是对 GitHub 立身之本的无情践踏。

也许有人会说,那咱们就听保护组织的提议,把标识符搬出 GitHub 吧。但这真的没什么作用。只要谷歌能把 AI 体能训练成功规定成“合理采用”,所以不只是 GitHub,互联网上的一切公共标识符 repo 都逃不出她们的手掌心。假如坐视一切发展下去,所以 Copilot 不仅会吞噬 GitHub 上的开放源码标识符,更会淹没世界上的每一行开放源码成果。

另一方面,有些朋友可能对 Copilot 评价不错,觉得 AI 代表着未来方向。拜托,我们这里反对的绝不是 AI 远距编程辅助工具,而是谷歌在 Copilot 当中的种种具体行径。其实谷歌完全可以把 Copilot 做得更合作开发者友好一些——比如邀请大家自愿参加,或者由编程人员有偿对体能训练语料库做出重大贡献。但截至目前,口口声声自称热爱开放源码的谷歌根本没做过这方面的尝试。另外,假如大家觉得 Copilot 效果挺好,那主要也是因为底层开放源码体能训练数据的质量过硬。Copilot 其实是在从开放源码工程项目那边搞生命虹吸,而一旦开放源码活力枯竭,Copilot 也将失去发展的依凭。

在之前讨论 Copilot 的时候,我曾说“我并不担心它对开放源码的影响。”现在也是,假如从短期来看,Copilot 还不足以威胁整座开放源码生态。但回顾自己近 25 年来的开源之旅,我发现这东西的存在本身是最大的问题。毕竟开放源码靠的不是一支固定的队伍,而是一种不断成长、不断变化的自发性智慧,它需要持续吸引新鲜头脑来完成自我更新。开放源码参与者们彼此设定新的标准与挑战,也共同拉高了开放源码成就的期望标杆。

在这场奇妙而盛大的化学反应中,Copilot 横空杀出,想要把整座开放源码宇宙据为己有。哪怕抛开谷歌那劣迹斑斑的开放源码记录,我们也能一眼看出 Copilot 的本质——一只病菌。因而在对开放源码世界造成无法弥补的伤害之前,我们必须质疑 Copilot 的合法性。

参考链接:

https://www.theinsaneapp.com/2022/11/programmers-filed-lawsuit-against-openai-microsoft-and-github.html

https://githubcopilotinvestigation.com/

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务