焱融科技 YRCloudFile 率先支持 NVIDIA GPUDirect Storage(GDS)

2023-05-29 0 919

原副标题:焱融信息技术 YRCloudFile 火速全力支持 NVIDIA GPUDirect Storage(GDS)

2023-03-17 11:22:35 译者:宋均益

2020 年 GPT-3 数学模型的参数量首度冲破百亿再创历史新高,达到了 1750 亿,可说是“加大力度出空前绝后”。今日下午,备受瞩目的小型多逻辑控制系统数学模型 GPT-4 正式发布!GPT-4 是多逻辑控制系统的,同时全力支持文档和影像输出机能。该版“更强悍”,数学模型精确度随著数学模型体积及体能训练统计数据的减少而明显提高。

体能训练天量数学模型需要非常大的INS13ZD,但随著统计数据集和数学模型体量急速减少,插件写入统计数据所耗费的天数显得越长,从而负面影响了插件的操控性,较慢的 I/O 严重推升GPU 的强悍算力。如何大幅提高GPU写入小型统计数据集的速率将是排序和虚拟化协力遭遇的最大考验。为更加轻松地满足用户大体量排序软件产业对于虚拟化的统计数据出访需求,进一步充分发挥强悍的 GPU 排序能力,将操控性充分发挥到无与伦比,焱融技术项目组耗时6个月的天数完成对NVIDIA GPUDirect Storage(GDS)的网络连接合作开发,实现以直接内存的读取形式,将统计数据传输至GPU内存上,明显减少I/O延后,提高统计数据频宽。

GDS详述

当代 AI 和统计数据自然科学组织工作是由大量统计数据驱动力的,随著人工智慧以及高操控性演算的统计数据集体量急速减少,GPU 排序和统计网络控制系统虚拟化之间的加速通讯显得非常重要。统计数据从 NVMe 硬盘数据传输到 GPU 内存的标准方向,传统的形式是由 CPU 控制的,使用控制系统內存中的Percey内存(Bounce Buffer)做统计数据的中转站。这种处理过程会产生附加的统计数据复本组织工作,造成很大的控制系统开支。当统计数据集的体量急速减少,插件写入统计数据耗费的天数会显得愈来愈长,从而负面影响了应用领域运转的操控性。

焱融科技 YRCloudFile 率先支持 NVIDIA GPUDirect Storage(GDS)

NVIDIA GPUDirect Storage(GDS) 技术通过 DMA 引擎将硬盘统计数据直接写入 GPU 显存,这种以直接内存的读取形式,避免了内存 bounce buffers 所带来的附加统计数据复本,从而实现 CPU 和主存的 IO 旁路,使 IO 吞吐能力不再受限于控制系统总线的频宽压力。近来,由于高速 RDMA 网络的普及,GPUDirect storage 可以高效地直接出访远端存储设备,诸如一些 NVMe的 target 方案和一些企业级分布式存储产品,它能有效减轻 CPU I/O 瓶颈,提高统计数据传输的 I/O 频宽的同时,减少I/O延迟。

全力支持GPUDirect技术的操控性收益

英伟达合作开发的 GPUDirect Storage 技术,大幅提高 GPU 写入小型统计数据集的速率。GDS 通过更快、更直接的统计数据方向提高了存储和 GPU 之间统计数据移动的效率。统计数据直接从主机上的网卡(NIC)数据传输到 GPU,而不需要经过控制系统内存和 CPU。这种形式消除了控制系统架构中 IO 方向瓶颈,减少了不必要的统计数据复制,减少了延后,同时,释放出来的排序资源还可用于深度学习中诸如图形处理等其他业务。NVIDIA 表示通过全力支持 GPUDirect 技术能够带来多方面的操控性收益:

? GDS 在存储和 GPU 之间提高 2~8 倍的统计数据传输频宽。

? 避免了 CPU 在内存中的 bounce buffers 复本,在某些场景下端到端数据传输的延后能够实现 3.8x 的减少。

? 当 GPU 并发度减少时,GDS 仍然保持稳定的低延后输出。

? GPU 不仅作为实现最高频宽的排序引擎,同时也作为实现最高 IOPS 的排序引擎。

? 在某些场景的实测统计数据表明,如果单纯使用 CPU,吞吐率仅能达到 50GB/s;而在使用 GPU 之后,吞吐率可达到 215 GB/s。因此,能全力支持GDS的虚拟化更能充分匹配前端的异构排序能力。

焱融科技 YRCloudFile 率先支持 NVIDIA GPUDirect Storage(GDS)

GPUDirect Storage 架构图

焱融分布式文件虚拟化 YRCloudFile 全力支持 GDS 的大体流程:

YRCloudFile 客户端向 nvidia-fs 注册后,cuFile 打开一个 YRCloudFile 软件产业文件,会将 nvidia-fs 和 YRCloudFile 的特定接口进行绑定,当 io 下发到 client 中,client 检测该 IO 是否是 GDS 的请求,如果是,则回调 nvidia-fs 的 map 接口,获得 sglist 请求的 dma 地址,借助底层驱动力能力,实现统计数据的RMDA 数据传输。

NVIDIA?Magnum IO GPUDirect? 技术,能够明显减少 GPU 服务器内的 CPU 占用率,减少存储频宽并减少延后。焱融信息技术是国内全力支持 GPUDirect? 机能的首家分布式文件存储厂商,能够更好地管理统计数据方向。焱融文件虚拟化与 GDS 的组合使得统计数据在插件和存储之间通过更短、更有效的方向数据传输,实现 1+1>2 的机能效果。从而使全力支持 GDS 的插件能够充分释放 GPU 排序能力,为人工智慧和机器学习(AI/ML)以及统计数据分析等业务加速。

2022 年,焱融追光全闪文件一体机单存储节点达到 40GB/s+ 频宽和 200万+ IOPS 操控性,并应用领域于人工智慧、智能汽车、智能制造、教育等行业生产环境中,为企业用户成功构建高操控性存储平台。在服务全球 500 强制造业的客户中,完成国内首个双 200Gb 网络聚合分布式文件存储软件产业部署,实现 AI 排序平台破千万 IOPS 操控性实践。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务