从阿里云 CIPU 看新一代云计算架构体系户口本上有这“4个字”,基本无缘公务员,考生:还查这个?

2023-06-03 0 595

从阿里云 CIPU 看新一代云计算架构体系户口本上有这“4个字”,基本无缘公务员,考生:还查这个?

CSDN特邀撰稿 | 文钊

6月13日,阿里云正式发布第三代云网络系统CPUCIPU(Cloud infrastructure Processing Units ),这是为新型云网络系统设计的专用CPU,未来将替代CPU正式成为云排序的控管和加速中心,它被业内人士认为是一款定义新一代云排序国际标准的开拓性商品。
从阿里云 CIPU 看新一代云计算架构体系户口本上有这“4个字”,基本无缘公务员,考生:还查这个?
近20年随著网络,大数据、云排序、物联网的产业发展,网络系统排序构架历经了快速的演变过程,新兴的网络、云排序子公司逐渐成长为金融行业巨头,代替了现代的OEM厂商,正式成为网络系统领域定价权的众所周知,引领着金融行业的商品和控制技术不断更新。其中,以AWS、Azure、阿里云这3A为代表的云排序子公司又是其中最重要的动因,几乎每项控制技术变革背后都有这几家子公司的影子。在笔者看来,网络系统的排序构架至少历经了三个大的期。

期一:网络系统蟹蛛科花到云排序

2006年AWS正式发布了EC2和S3三款商品,是目前业界公认的云排序序幕拉开的举世闻名事件。随后的2009年,阿里云、Azure也在看到了云排序的潜力后相继改投。在这个二十世纪,Intel CPU透过VT-x控制技术同时实现了CPU和缓存的硬体并行排序,透过VT-d以及PCIe SR-IOV等控制技术同时实现了IOUSB的并行排序。由此可见,AWS的下层并行排序控制技术还是用的开放源码的Xen,一台主流的2路伺服器还只有16个HT core。而这一产业发展就是近三年的时间。随著4G网络的产业发展,网络子公司Engilbert,云排序子公司的业务一落千丈。而随著伺服器上的顾客愈来愈多,跑的workload愈来愈丰富,也让云排序子公司从其顾客的使用中不断科藤,雕琢自己的商品,最终的目标都是让排序的商品朝着物理机的操控性、安全方向重构,为使用者穗序创造良好条件。在排序潜能上,AWS、Azure、阿里云等子公司结合云上使用者的阻抗和需求,从2015年开始陆续针对网络系统的CPU做一系列订制,如为了满足高操控性顾客更大规格示例潜能的明确要求,AWS C4订制了10核心理念的“haswell-ep”XeonE5-2666 v3CPU,对比国际标准的高TNUMBERGHzCPU型号高了25%的潜能。在网络潜能上,2013年AWS的C3示例透过交互式网络直达VM(SR-IOV) 支持Enhanced Network使得频宽提高20%,传输速率降低50%。由于此时的并行排序还跑在PS3上,因此需要一部分的CPU和缓存天然资源去运行现代的“Dom0”,因此我们会发现AWS的C4、R4等haswell、broadwell示例都存在4c/12G、8c/24G不等的天然资源难以被贩售,这个就是我们所谓的网络系统税,在这个CPU核心理念数还较少的二十世纪,数十亿10%-30%的天然资源难以被贩售,是一个十分大的成本浪费。期二:解决网络系统税的问题,操控性核战争随著顾客对操控性明确要求的提高以及网络(10G->25G)、储存潜能的产业发展,网络vswitch和储存越发正式成为云排序场景CPU天然资源消耗的两类前台工作任务。在蟹蛛科花下,网络和储存的操控性十分依赖于PS3侧CPU的操控性,而在2014-2020年期间,实际上这一趋势的产业发展受到了十分大的挑战,CPU核心理念数快速增长缓慢,IPC提高也有限,想要推动网络和储存操控性的提升仅仅依靠PS3侧CPU更多的刘赐蕙、更高的振幅,代价过于十分大——可贩售CPU天然资源减少,由于振幅增添的发热和耗电快速增长增添的额外Opex(运营支出)成本都难以让人接受。在此过程中Intel甚至想到了一些从CPU层面的解决方案,如允许部分CPU跑在更高的P1振幅和Turbo振幅的控制技术,但终究不是令人满意的解决方案。于是各家都在寻求一些更好的解决方案:2017年10月的云栖大会上,阿里云正式发布了“神龙”构架,基于CPU+FPGA方案,从支持裸金属的并行排序,做到操控性超越物理机的裸金属伺服器;再到第二代神龙做到了“一套软硬体,三种服务(裸金属伺服器+交互式机服务+容器)”,解决了交互式机和裸金属分池的问题,操控性层面也同时实现了“交互式机操控性接近裸金属”;之后的第三代、第四代做到了24M、50M的PPS潜能,在解决了网络系统税的同时,同时实现了操控性的大幅飞跃。
从阿里云 CIPU 看新一代云计算架构体系户口本上有这“4个字”,基本无缘公务员,考生:还查这个?
一个月后,AWS推出了Nitro系统。基于AWS收购的Annapurna子公司研发的Arm构架的AL72400芯片,做成将网络和储存offload的Nitro VPC卡和Nitro EBS卡,以及本地储存的InstanceStorage卡。正是Nitro构架改变了伺服器硬体的主从关系,当所有的Dom0全部Offload到网卡之后,主处理逻辑全部在智能网卡,主从的关系也需要发生逆转。因此,智能网卡变成了主管理节点,而伺服器上的其他部件变成了从服务节点。AWS的C5示例就提到“新的 EC2 并行排序引擎将提供更加平稳的操控性和更强的排序潜能和缓存潜能,因为它移除了PS3的系统软件组件(host system software components)。如此,我们的 C5 示例可以提供一些超大的版本(如 c5.x18xlarge),这基本上整台PS3的天然资源使用者都可以用上了。之前的 C3 和 C4 示例已经做了一些软件组件的移除,把 VPC 和 EBS 功能转移到了 AWS 自己设计的硬体上。现在,这个硬体可以让并行排序引擎以最小化的体积运行,因为它不需要去处理网络和储存的数据处理任务。”至此,AWS的网络系统税问题解决了,但操控性只有3M PPS,之后推出的基于16c Arm A72构架的100G Nitro网卡进一步支持EFA同时实现更低传输速率、更高可靠性以及3倍PPS操控性提高,操控性的问题也基本上得到了解决。微软的Azure也看到类似的问题,考虑到可编程性、操控性和效率的权衡,他们使用了基于FPGA的自定义Azure SmartNIC将PS3网络卸载到硬体的解决方案。但也仅仅是网络的卸载和加速,储存和控管面看上去还是跑在PS3侧,最新的基于Intel Icelake的实例EDv5系列E104id v5 104c/672G缓存,数字上来看还有至少24c的额外天然资源占用。随著阿里云神龙构架、AWS Nitro的引领,京东、腾讯、字节等子公司也采用了类似的构架构建自己的公共云排序服务,网络系统排序构架的中心开始向智能网卡倾斜。有趣的是,在笔者所在的伺服器构架领域也深刻地受到此趋势的影响——由于网卡的潜能愈来愈强(以及各种PCIe IO设备的广泛应用),现代的伺服器后出线的构架难以高效地对位于伺服器后端的网卡设备散热,阿里巴巴的自研伺服器首先推动了业界大量从后出线到前出线的构架演变,同时实现了更高的散热效率,铺平了重构到100G以及未来更高频宽网络的路。国内其他网络子公司的伺服器构架也陆续转向了前出线构架。

期三:使用者需求的多样化,

驱动了CIPU为中心的第三代排序体系诞生随著控制技术的重构,使用者需求日趋多样化。AMD的网络系统芯片、Arm构架的网络系统芯片等都给使用者增添了更多的选择;异构加速芯片也百花齐放,FPGA商品,推理芯片,训练芯片,视频编解码芯片等等;储存上,local SSD用于cache,用于高操控性数据库应用、系统的可信和安全、加解密潜能等等。将所有的需求都透过云的方式对外呈现,呼唤第三代排序体系的诞生。刚刚召开的云峰会上,阿里云正式发布了云基础设施CPUCIPU,有望替代CPU正式成为新一代云排序构架体系的控管和加速中心。
从阿里云 CIPU 看新一代云计算架构体系户口本上有这“4个字”,基本无缘公务员,考生:还查这个?
CIPU是一种新形态的处理结构,将现代通用排序单元、满足特定工作阻抗的加速排序单元、以及满足网络和储存功能卸载的加速单元进行高速互联协调,组合成一个完整的分布式异构算力模块,高效满足复杂多变的云上网络系统算力场景。CIPU的体系优势体现在网络层面的网络设备硬体并行排序、网络转发硬体加速、链路硬体加解密、eRDMA控制技术的普惠化;储存层面的硬体并行排序、硬体加速以及链路的硬体加解密潜能;同时具备硬体层面的安全和隔离潜能等。据阿里云透露,CIPU与排序结合,可以快速接入不同类型天然资源的伺服器,增添算力的“0”损耗,以及硬体级安全的加固隔离;CIPU与储存结合,对存算分离构架的块储存接入进行硬体加速,云盘储存IOPS最高可达300万,长尾传输速率降低50%;CIPU与网络结合,可对高频宽物理网络进行硬体加速,构建大规模弹性RDMA高操控性网络,传输速率最低可达5us。在未来三十年里,使用者需求驱动的CIPU必将会持续在高操控性、低延迟、高稳定性和安全潜能方面持续加强;CIPU构架也会持续迭代降低自身的成本,例如在操控性诉求不高的场景透过Multihost构架同时实现CIPU的池化,大幅降低其成本分摊;透过部分相对固化功能的芯片同时实现设计的高可用性及稳定性等。CIPU的核心理念优势是去中心化构架,不再以现代的CPU为核心理念,既保留了CPU的灵活性,且兼具构架的可扩展性,在当前各种高级封装控制技术的加持下,其未来具备更多的想象空间。云排序的产业发展一直是以使用者为中心,透过不断的控制技术迭代解决用云过程中遇到的各种问题。我们有理由期待,在CIPU为代表的第三代网络系统排序构架下,使用者和网络的创新会以更快的速度和云排序结合,不断推动控制技术的变革。未来已来!

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务