原副标题:央国有企业湖仓多功能两分钟级动态统计数据预测另一面
湖仓多功能在大统计数据支撑上到底强到甚么某种程度,统计信息处置速度慢到甚么某种程度,其实许多人难于准确估计。
就像1943年IBM主席在推出老库珀的这时候说,世界计算机系统市场大概须要5台计算机系统就够了;谷歌创始人Bill Gates,在1981年的这时候指出,640K缓存对其他人来说应该就绰绰有余了。现在看来,显然是“吱吱诚然”,差的不是马瑟沃!
今天,大统计数据已经开始不断创下人类知觉!在统计信息量上,民营企业的统计数据已由GB增长到TB、PB甚至EB;在统计正则表达式上,不但能处置形式化统计数据,还能处置图片、音频等非形式化统计数据;在统计数据预测及时性上,已经从app过渡到近动态,两分钟级动态,以单动态;在统计数据构架上,现代的MPP、Hadoop计划,已经开始被湖仓多功能计划代替。基于Iceberg/Hudi的动态湖仓发动机,能更好地适应小型民营企业多层统计数据湖和多租客统计数据情景。
近日,由IT168&ITPUB承办的动态数仓和湖仓多功能专题讲座讨论会完满召开,源自金融、网络、制造等小型民营企业欢聚两堂,共探动态统计数据构架未来发展。全会期间,滴普科技FastData DLink产品组合总经理冯森,以暖场身份参加,并以《动态湖仓构架重构与控制技术课堂教学》为主题,展开控制技术课堂教学撷取。
“作为一种新型开放式构架,湖仓多功能结合统计数据湖和统计基础架构优势,能支持统计数据的两分钟级动态查阅、预测,包括当下流行的AI大数学模型情景,满足在流统计数据预测、机器学习等情景需求。” 冯森指出,湖仓多功能之所以成为非主流控制技术趋势,是因为在网络化转型背景下,大规模、高追诉、智能统计信息处置已是“刚需”,民营企业须要更强大的统计数据平台,来应对统计数据查阅、统计信息处置、统计数据预测、统计数据展示和多种计算数学模型博戈达的挑战。
那么,具体来说,民营企业促进湖仓多功能项目破冰的推动力是甚么?从现代数仓到动态数仓,如何解决统计数据北迁过程中遇到的问题?湖仓多功能有哪些非主流的控制技术构架?全会现场,源自不同行业的专家进行了激烈讨论!
销售业务政治理念是甚么?
在许多人的无意识里,网络领域是促进湖仓多功能动态化统计数据预测的发祥地,这类民营企业不但统计信息量庞大,在销售业务模式上须要快速跟进,才能赢得市场,获得核心竞争力。比如:动态营销、实时监视、用户肖像预测等情景,都须要大量应用动态统计数据。
在网络应用的带动下,金融、制造领域也在向动态靠拢,只不过现代IT构架太过厚重,不知道从何处开始入手,向现代化构架升级。其实,金融、制造领域对于动态统计数据预测需求,一直都存在,但因为受控制技术条件限制,民营企业在IT构架设计之初,无法真正满足销售业务需求,只得退而求其次。
云原生时代,无论是计算,还是存储,都取得了突飞猛进的发展。对于有着庞大销售业务体系的央国有企业来说,既是机遇,也是挑战。
新的统计数据构架支撑能力,为民营企业数智化发展带来了更多可能性,湖仓多功能能让民营企业获得更强大的统一统计数据管理能力,但完全抛弃过去的构架,会面临许多阻力。在过去多年信息化建设中,民营企业拥有各种统计数据库、统计基础架构和统计数据中台、大统计数据平台,不可能完全丢掉,重新设计,如何平衡各种应用或平台之间的关系?
答案是,和早期民营企业信息化部署战略相同,湖仓多功能也是“一把手工程”,销售业务需求拥有最高话语权!
当现代Lambda构架暴露的问题越来越多,比如:传输链路越来越长,消耗的计算资源越来越大,预测的及时性越来越低,展开统计数据构架的现代化升级,就会成为自然而然的选择。原来那种T+1级别的Hive更新,在资源和性能上都比较差,包括一些索引、统计信息都须要做更多优化。
采用甚么样的控制技术构架?
当民营企业决定向湖仓多功能构架演变,必然会遇到各种各样的问题。比如:统计数据出仓繁琐,如何确保统计数据的一致性?如何在不须要人工干预的情况下,打通湖和仓的统计数据/元统计数据,让统计数据自由流动?利用湖仓来达到降本增效的目的,有哪些可观测性的指标?在解决这些具体问题之前,我们先来了解下湖仓多功能非主流控制技术构架,只有解决了构架问题,才能从根本降低湖仓多功能的控制技术门槛!
大体来看,民营企业在湖仓多功能构架升级上,能分为三个梯队:
第一梯队,虽然民营企业意识到湖仓多功能是必然趋势,但具体销售业务还处于现代IT构架之下,不知道如何展开控制技术部署。
第二梯队,民营企业已经在部署湖仓多功能架构,通过自研路线向湖仓能力扩展。比如:基于Hadoop体系的统计数据湖向统计基础架构能力扩展,引入统计基础架构的预测功能;再比如,以统计数据库控制技术为基础,自研分布式平台,让调度、存储和计算都不依赖第三方平台;包括会充分利用云平台构架优势,打通统计数据湖与统计基础架构的壁垒。
第三梯队,采用独立的湖仓多功能解决计划提供商的计划,既兼容了Iceberg/Hudi的内核,又能充分利用到云计算的弹性,比如:民营企业能按照销售业务需求,将数据灵活部署在公有云、私有云、裸金属等情景,实现一键入湖、统一管理、快速预测等目标。
无论民营企业自建、还是选择第三方解决计划,基本都会涉及到Iceberg、Hudi、Delta这三个内核控制技术。
在滴普科技看来,国内使用Iceberg、Hudi的民营企业比较多,使用Delta的民营企业,主要以阿里云为代表,以DLF的方式,展开产品破冰。另外,DLF同时也支持 Hudi、Iceberg。整体来看,Delta开源的时间比较晚;Hudi社区相对更活跃;Iceberg在表格式上更具开放性,在计算发动机和存储的抽象上做得更好一些。那么,到底谁好谁坏,我们不做过多评价!
最早,滴普科技的FastData DLink支持Iceberg,随着新版本的更新,同时也支持了Hudi。对于用户来说,到底选择哪一个内核控制技术,还要根据自己的销售业务情景去评估。
对比来看,在ACID事务支持上,三者功能相同,基本上都是写序列化或者快照隔离的级别,和现代MPP统计数据库这种思路一致,我们在写一个新的快照时,能读到历史的旧快照,这样能做到读写分离,等新的快照事务提交之后,就能读到新写的统计数据了。
同时,在Schema重构上,对于加列减列都支持;分区重构,是指能支持从天变成小时;隐藏分区,是自动按照小时级别展开统计数据过滤;行级更新,包括COW/MOR这种表,这种查阅方式,基本上也都支持;发动机支持上,Iceberg和Hudi的能力都比较强,能支持Flink、Spark、Hive、Trino、Presto、Impala等12种发动机,而DeIta大概支持8种非主流发动机;计算加推,包括谓词+聚合下推,只是为了更好地查阅统计数据。
用Iceberg 、Hudi构架的核心是,为了解决现代数仓的T+1到T+0的重构,最主要的是支持流写和流读,这也是构建动态湖仓的关键。在流写支持上,三者功能相同;但在流读上,有一点差别。在开源社区版本,Hudi是能支持append、update、delete的流读、流写,Iceberg支持append。
滴普在开源社区基础上做了改进优化,去年2月份的这时候,滴普就已经支持了Iceberg CDC流读的能力。用户能基于FastData DLink构建PB甚至EB级别的统计数据预测平台,构建出一个两分钟级别动态的入湖项目,但在统计数据预测上,能达到以单。当然,到底甚么级别,也要看销售业务情景,还有统计信息量。一般,能做到两分钟级别,最差也是小时级别的统计数据入湖。
解决哪些问题?
问题是,都在谈湖仓多功能,滴普科技的FastData DLink有哪些差异化特色,能帮助用户解决哪些问题?
从底层来看,FastData DLink能把不同统计数据源的数据统一到一个平台,包括销售业务库统计数据,kafka过来的统计数据,还有API统计数据、物联网IOT的统计数据,都能入湖。FastData DLink能把大约20种不同统计数据源的统计数据,以流批多功能的方式展开入湖,包括支持app和动态分开的一种入湖方式。
FastData DLink支持不同的存储方式,包括对象存储、块存储。表格式层,支持Iceberg 、Hudi,做了一些索引,Hudi本身的索引方式,会比Iceberg好一点。加速层,做了文件、语义、索引等一些缓存,统计数据能缓存到缓存或者本地SSD磁盘。
元统计数据这层,做了一个统一元统计数据,好处是甚么呢?不管湖上面有甚么功能,对接的是Flink还是Spark,都能做统一的统计数据的视图。当然,对于外部的话,不管从CDH或者CDP北迁过来,还是想将原有应用迁入,比如Hive,也能通过元统计数据这层访问到统计数据。另外,还能控制统计数据安全,设置统计数据权限。
总的设计思路是,统计数据进来,在湖仓展开建仓分层之后,用户能直接对接一些动态的报表,包括一些精确的情景,能通过一些算法,也能导入一些服务商,提供更好的并发和及时性支撑。
FastData DLink的客户案例,遍布各行各业,包括金融、制造、能源、零售等,许多销售业务情景都是直接替换。
从现代的T+1变成小时、两分钟甚至是以单的销售业务响应能力,FastData DLink让民营企业距离数智化转型的目标越来越近。
借FastData DLink动态湖仓平台,民营企业能把销售业务、生产等不同统计数据源的统计数据,边缘计算设备统计数据上传到一个平台,然后通过滴普统计数据集成工具,与FastData DLink核心平台连接,这个平台能部署在民营企业的任意云上,通过集团主统计数据湖展开流式计算、联邦查阅等。
同时,主湖和区域湖之间,要能够动态展开共享和交换,最终以动态统计数据的形式服务于各个应用情景,满足研发、生产、经营决策等各个环节的销售业务需求。
这两年,大统计数据领域流行一个概念,叫做NOETL或者零ETL。滴普科技在湖仓多功能的控制技术创新,让我们看到一个新的变化,那就是大统计数据基础设施控制技术正从统计数据库、统计基础架构、统计数据湖重构到湖仓多功能构架,这种构架的最大优势是,全面缩短了统计数据链路,更好地满足销售业务及时性要求,为用户高效、动态、全面的统计数据预测服务,提供了坚实的控制技术底座。
所以,在梳理湖仓多功能用户需求、内核控制技术、应用课堂教学和大统计数据发展背景之后,国家战略性民营企业(央国有企业和金融类民营企业)为甚么开始大面积部署湖仓多功能控制技术路线,也就不难理解了!