数据爆炸时代应该如何做云存储?阿里 GDB 图数据库应用最全揭秘

2023-06-01 0 118

数据爆炸时代应该如何做云存储?阿里 GDB 图数据库应用最全揭秘

近年来,各个行业产生的信息量巨大,且呈现爆发式稳步增长态势,统计数据核爆黄金时代的来临对于统计信息处理、统计数据储存提出了捷伊考验。此外,云原生植物黄金时代的来临也为当下的资料库格局增添了一些革命性的革新,现在越来越多的用户将传统资料库搬至云上。

做为现阶段亚洲地区增速最慢云计算服务项目商的穆萨云,要支撑如此快速稳步增长且巨大的云计算背后有赖于一个Sierentz的储存控制系统。为应对统计数据爆发式稳步增长增添的考验,穆萨拿出了大信息量可靠的储存、高效率处理解决方案—— 云原生植物图资料库 GDB。

现阶段,图资料库尚处于产业成长期,在亚洲地区图资料库用的还很少,但产业发展快速,是近些年稳步增长最慢的资料库分支。做为“先驱者”,穆萨图 GDB 图资料库是怎样结构设计的,如果怎样应用领域?在 ArchSummit 亚洲地区构架师首脑会议(深圳站)2019 现场, InfoQ 采访了穆萨云资料库产品销售部高级技术专家钱惟济,听他深度NSA穆萨 GDB 图资料库的结构设计、应用领域以及图资料库服务项目的规模化实践进程。

以下为 InfoQ 与钱惟济谈话概要:

InfoQ:您自何时重新加入穆萨,在储存技术销售部主要负责管理叶佛销售业务?

钱惟济:我是 2016 年重新加入穆萨开发工具项目组,一开始做了 TFS(Taobao Filesystem)的 Owner,随后在 Tair 项目组负责管理做第三代高速路储存控制系统,并将 Tair 在穆萨内部高速路储存和单模控制系统的积累工业生产至公有云上,现阶段在做图资料库 GDB。

InfoQ:穆萨云现阶段是中国也是亚洲地区增

钱惟济:我做的主要是 NoSQL 高速路储存控制系统那块,也就是双 11 大促用来支持洪水访问的核心控制系统,特别是大促刚开始的那几秒钟。那块面临的考验很大,具体来说每年销售业务都在稳步增长,新销售业务导致整座服务项目的规模都在急速稳步增长,因为穆萨的大南台策略不仅仅是在B2C领域,集团的所有销售业务网络连接到了 Tair 体系中,如土豆网、金蝶、红人等,比如去年的亚洲杯,金蝶乘车节等。其次,高速路储存这几年产业发展也很快,具体来说是储存介质的革新,从 DRAM 到 NVM,使整个储存结构和构架发生了巨变;AGP譬如 FPGA 和尤其是高速路 RDMA 的使用,使 Shared-Everything 的构架逐步破冰,这些真真切切的直接态射到了性能的提高和成本的下降。另外 NoSQL 资料库本身的产业发展,从前两年兴起的 Multi-Model 单模资料库到 NewSQL 体系的大产业发展,穆萨在每一步上都走的很靠前。更重要的,随着穆萨的云产品战略,全面将集团销售业务往云上走,将穆萨多年来的技术积累输出到云上,进一步打磨和提升云产品,来服务项目诸多云使用者和亿万的终端用户。这些年来我们也一直在做这些事情,比如我原先负责管理的 TFS,我们花了两年的时间把数百 P 的统计数据迁移到了云上的 OSS 储存,使云上云下控制系统统一。Tair 项目组过去孵化了 memcache 和 redis 产品,将我们大促的服务项目能力输出到云上。我们现在也将我们单模的图服务项目,将穆萨使用的可靠的在线图资料库 GDB 提供给诸多云用户。

InfoQ : 穆萨云原生植物图资料库 GDB 有什么技术难点,怎样进行统计数据查询优化?资料库引擎的特点?

钱惟济:其实在大统计数据领域,图计算产品已经很多了,但是做一个在线的图资料库,尤其是在线的高可靠的图资料库要考虑的技术点很多。具体来说图元素的储存本质上非常稀疏,大多数统计数据本身都是非结构化的,另外图资料库的查询可能会涉及大量的子图运算,如果没有一个高度优化的储存引擎基本摆不平的,本身在线资料库算力就没这么强,这里面又涵盖方方面面,比如各种索引结构设计、缓存优化等。再者,在云上售卖的话,为了保证用户场景和图结构的完整性,事务是必须要支持的。同时,GDB 采用穆萨云的基础设施,打造了一个 Cloud-Native 的图资料库。因为云上本身那块上已经很完善了,在动态扩缩容、资源隔离、高可用构架和快照备份等都能和云基础设施轻松适配,这个也是一个非常大的优势。

InfoQ:现阶段,GDB 资料库已经有了很多内部客户,早已在穆萨各个销售业务线产品使用,具体应用领域情况怎样,效果反馈怎样,请列举代表性的案例?

钱惟济:正如这次主题所讲的,最早的时候,图资料库是以架设在分布式 NoSQL 上的单模服务项目来服务项目的。内部产品有很多就不一一说了,比如亲情号本身就是使用 TairGraph 来服务项目的。穆萨的内部控制系统的特点就是规模大,场景复杂,这都有效的锤炼了控制系统。但是图资料库我们推广了很久后发现,除去大规模、高性能,图的服务项目场景很不一样。如果你做一个单模统计数据结构,比如像 Redis 一样结构化一个链表,一个集合,提供的运算大都是确定性的。对于图的结构化而讲,除去销售业务本身对图元素的二度 / 三度关系查找,游走,还有一些子图的局部运算,每个都不一样——挖掘统计数据的隐式关系是很重要的一环。还有就是事务性,TairGraph 为了极端的性能,没有事务,这样复杂场景下,就会有断图,射线的存在。所以还要去巡检和排查统计数据,说白了还是太在乎“查”的能力。我们正是总结了单模服务项目和服务项目穆萨集团内部销售业务的痛点,然后才逐步将图资料库 GDB 做起来,在内部替代了 TairGraph,也推到云上去,让广大云用户也能一起享受到云上云下相同的服务项目。

InfoQ:我了解到,GDB 资料库可以运用在社交网络、金融欺诈、实时推荐、知识图谱等应用领域领域,可否具体聊一聊,具体是怎样运用的,可以帮助企业解决什么问题?穆萨包括 GDB 在内的的统计数据库产品怎样为合作伙伴赋能?未来 GDB 在技术和功能上还将会有哪些迭代和演进?

钱惟济:的找到兴趣相同的用户,然后将一些用户购买的商品推荐给未购买的用户。在金融领域,GDB 可以实时的通过各种零散储存的借款,信用卡,分期账单关联到借账人,实时的计算打分。欺诈检测领域,也可以通过用户提供的伪信息迅速与已经使用的人,和现有人关联起来。图资料库特别适合挖掘各种离散的事件,用户等的关联关系。也希望我们能将沉淀在穆萨内部的产品和场景分享,赋能给广大用户。图资料库还处于产业成长期,也是所有资料库所有细分领域中产业发展最慢的一个分支,在亚洲地区图资料库用的还很少。

InfoQ:图资料库是近些年稳步增长最慢的资料库类别,与传统的资料库相比,GDB 资料库有哪些特点和优势?图资料库 GDB 和关系型资料库有什么区别?

钱惟济:相对于现有的关系型资料库,GDB 专门为高度连接的统计数据集进行优化。在多跳遍历,尤其是递归 JOIN 的场景下,GDB 提供了更为高效率的遍历性能。GDB 本身使用 Gremlin 查询语言,在复杂查询时可以提供更为精细的控制力。现在也有其他的开源图资料库产品,GDB 的本身优势就很大。具体来说是一个云原生植物产品,开箱即用,用户无需额外考虑资料库实例的计算储存资源准备、监控告警等等运维事务。并且 GDB 本身具备主备高可用能力,还有资料库文件自动备份等高级特性,为统计数据的安全性、可用性提供了非常好的保障。与大统计数据体系也有图计算产品相区别的是,GDB 主要构建实时在线的 OLTP 类服务项目,可以在毫秒级时间内完成统计数据存取、校验等销售业务逻辑,可以为终端用户提供更好的用户体验。另外 GDB 提供了完整的 ACID 在线事务能力,以及灵活的 IO 能力,实时更新,实时可见。

InfoQ:近年来,各个行业产生的信息量巨大,且呈现爆发式稳步增长态势,面对日常工作中产生的越来越多的海量统计数据,很多企业会面临统计信息处理的压力以及统计数据储存上的困难,您认为,统计数据核爆的黄金时代对储存技术的产业发展提出了哪些新要求?

钱惟济:是的,随着互联网的高速路产业发展,统计数据对于用户来说价值越来越大。这本身对于储存和资料库提出了更高的要求,其实本质上就是存和算。海量统计数据的储存技术经过十多年的产业发展已经日益成熟,对于企业来讲,随着统计数据的爆发式稳步增长,储存的动态扩展性和可靠性的维护是越来越难的。各行各业产生的统计数据与统计数据之间的关联关系,在统计数据的销售业务价值挖掘方面,也变得越来越重要。同时,相对以往,各企业追求更为实时的决策能力,以获得更大的商业利益或者规避风险。GDB 做为云原生植物的一个图资料库,在统计数据核爆的黄金时代提供了大信息量可靠的储存,对于统计数据之间的关联关系提供了原生植物,高效率的处理能力。

InfoQ:云原生植物黄金时代的来临,也会令资料库市场增添颠覆和革新,您认为,下一代统计数据中心的储存技术和控制系统将会面临哪些机遇与考验。云原生植物黄金时代的资料库应当是什么样子?未来 3-5 年,资料库将会是怎样的产业发展趋势?

钱惟济:正如 MySQL、Redis 等开源资料库云服务项目飞速产业发展,现阶段大部分是采用托管模式,伴随着用户的销售业务产业发展,对资料库功能、成本、弹性等都有了更高的要求,这也催生了云原生植物构架资料库,云原生植物已经对资料库格局产生重大影响,也是未来十年资料库产业发展的重要方向。现在越来越多的用户将传统资料库搬至云上,从现阶段我们来看,未来的资料库应当具备的特性是:极致弹性:所有计算和储存的资源,无需用户预先配置,云统计数据服务项目可自行按销售业务负载进行扩缩容,真正做到像水和电一样方便,同时对于用户也提供了更为经济的使用成本。智能运维:资料库控制系统是一种比较复杂的软件控制系统,配置参数多种多样,管控控制系统也很复杂。将来的云原生植物资料库服务项目将自动对销售业务的使用场景进行统计分析,自动设置成最适合销售业务应用领域的配置方式,将开发人员从繁重的 DBA 工作中解放出来。并且管控控制系统也将更加完善,高可用自恢复、甚至是跨可用区的高可用将会成为资料库控制系统的标准配置。单模融合:现在 Table、Graph、KV、Document 等各种资料库模型百花齐放,产业发展迅速,现在 SQL 和 NoSQL/NewSQL 在事务、扩展性等细节特性支持方面还有明显差异。在可预见的将来,各个统计数据访问模型在各自逐步深化的同时,事务、扩展性等基础机制方面将会逐步相互融合,关系型资料库也将提供更为完善的分布式水平扩展能力、单模型支持能力等,而各类 NoSQL 资料库也将在 ACID 事务、索引、查询优化等方面逐步完善起来。AGP:之前各个私有云厂商,以及定制硬件方式提供一体机服务项目的资料库控制系统中,AGP使用的较为普遍,但是在云原生植物的资料库控制系统中的使用还刚刚开始。将来云原生植物资料库控制系统也将在 NVM、GPU、FPGA 等AGP方面使用得更为完善,在异构计算加速、软硬件一体化融合方面更进一步,为用户提供更出色的性能和更经济的成本。GDB 定位于实时在线的 OLTP 图资料库控制系统,在提供与传统关系型资料库等同的事务、自动索引、高度优化的查询计划和并行执行的同时,也提供了 NoSQL 类资料库中,专门为图模型定制的高效率查询能力。在未来,GDB 将在极致弹性、智能运维、单模融合、AGP等方面持续优化,深入挖掘统计数据之间关联关系的奥秘。

嘉宾介绍

钱惟济,穆萨巴巴储存技术销售部高级技术专家。花名百润,现就职于穆萨巴巴穆萨云资料库产品销售部,高速路储存组 TAIR 储存引擎负责管理人,高级技术专家。10 年来一直从事基础平台 / 开发工具与储存技术,在穆萨巴巴 NoSQL 组主导开发下一代大规模高速路储存控制系统,并广泛应用领域于淘宝,天猫,土豆网,金蝶等各大型控制系统。具有丰富的大型控制系统稳定性,可靠性结构设计经验。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务