电脑之心报道
电脑之心杂志社
开放源码又没完全开放源码。
我们知道,Huggingface 是 AI 应用领域知名的开放源码网络平台,任何人和机构都可以在该网络平台上正式发布自己以及采用他人的数学模型、统计数据集,为业内提供了研究便利。因此它深受 AI 圈的喜爱,其最畅销的 Transformer 库已在 GitHub 上收获 102k 的 Star 量。
但是近日,由 TII 开发并正式发布在 Huggingface 上的一个大数学模型引发了广泛争论。该大数学模型是 400 亿模块的自然法则记忆卡数学模型 Falcon-40B,它在 RefinedWeb 的 1000B token 上进行训练,并采用精选统计数据集增强。它在 Huggingface 的 OpenLLM 榜单第九位首位,其操控性强于 LLaMA、MPT、RedPajama 和 StableLM 等。
榜单地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard虽然 Falcon-40B 数学模型本身很强大,但其遵循的开放源码协定却在开放源码圈引起了舆论哗然。它在一个允许商业性采用的许可证下可用,即如下 TII Falcon LLM License。
开放源码协定:https://huggingface.co/tiiuae/falcon-40b/blob/main/LICENSE.txt该许可证部分基于 Apache License Version 2.0。Apache License 2.0 协定来自知名的 Apache 促进会,它对商业性应用友好。采用者可以在须要的时候修正代码来满足要求并作为开放源码或商业性商品正式发布 / 销售。
但有人发现了 TII Falcon LLM License 的一些「玄机」。twitter用户 @natfriedman 总结了它与 Apache License 2.0 开放源码许可的相似与不同点。其中共同之处是都授予采用、修正和递送许可经典作品的广为许可,明确要求在递送中包含许可文档和归属于,并具有责任管制、担保权。
但是区别是,TII Falcon LLM License 明确要求一旦达至收入准入门槛,需支付商业性用途许可权采用费,而大多数开放源码许可不须要。TII Falcon LLM License 对如何正式发布或递送经典作品也有额外管制, 比如明确要求归属于「Falcon LLM technology from the Technology Innovation Institute」。
同时,TII Falcon LLM License 不允许在其他不同的许可下重新授权经典作品,而大多数开放源码许可允许衍生经典作品根据不同的协定获得许可。TII Falcon LLM License 还明确地排除了 Falcon LLM 的某些版本 / 大小的许可,而开放源码许可通常适用于所有版本。
最后,TII Falcon LLM License 对修正源代码和目标代码都有额外的明确要求,除非递送编译的数学模型。总之,该许可允许开放采用和修正,但同时又保留了很多自有权利。
@natfriedman 的观点得到了很多人的附和,另一位twitter用户 @_msw_ 直截了当地指出,将专有许可基于受信任的 Apache License 2.0 之上并称其为「开放源码」(实际上不是真正的开放源码),这种利用 Apache 软件促进会来之不易的信誉和品牌的做法是不对的。又有有的指出 TII Falcon LLM License 本就是「部分」基于开放源码协定。业内从事开放源码人士发表了观点,认为魔改 Apache 或其他主流开放源码许可证不叫开放源码,甚至算不上开放内核。Falcon-40B 是否开放源码但又不完全开放源码呢?电脑之心的读者们,你们怎么看?参考链接:https://huggingface.co/tiiuae/falcon-40b
THE END
投稿或寻求报道:[email protected]