
由Apache Spark技术项目组所创办的数据资料处置软件公司Databricks,全面面世Delta即刻数据资料表单(Delta Live Tables,DLT),供采用者采用单纯的新闻稿式方法,小体量构筑数据资料组织工作管道,并且手动管理工作数据资料基础建设。Delta即刻数据资料表单已经在AWS和Azure云计算正式宣布上架,并在Google云计算进入公开自动更新阶段。
ETL中的在线视频和格式化组织工作阻抗,是数据资料分析、数据科学和机器学习应用领域的基本,非官方提及,要将大批原初且非形式化的数据资料,转成整洁、可靠的资料库,是几项重要组织工作,因为如此才能将其用作业务当中。
但是传统上,要切换SQL查阅用作生产自然环境的ETL组织工作管道,须要大批繁杂且繁杂的操作,即使体量极小,数据资料技师也须要花大批的时间在辅助工具和管理工作基础建设上,数据资料可检视性和环境治理也受到考验,而Databricks构筑DLT,即是要来化解这些问题。
DLT是一个ETL架构,完全全力支持Pytho标识符,应用领域试验、consequences、监视、存档等软工最差课堂教学,布署小体量组织工作管道。
DLT原生植物全力支持现代软工最差课堂教学,供采用者可以独立进行开发和布署前试验,模块化布署和管理工作自然环境,和继续执行单元试验。DLT还能手动管理基础建设,由采用者实用性最轻和最大继续执行示例数量,并让DLT依照软件产业利用效率,调整软件产业大小不一,从而手动扩充基础建设。
由于DLT会手动翻转批号或在线视频处置组织工作管道,因而能强化采用者生产成本,非官方提及,DLT与一般强制合二为一在线视频和格式化的组织工作阻抗辅助工具不同,DLT供采用者采用一般而言API全力支持任何类别的数据资料组织工作阻抗,因而数据资料技师能以更单纯且加速的方式,建立起云计算体量数据资料管道。
另外,DLT内建产品品质控制、试验、监视等工能以各种发射率查阅数据资料,化解产品品质不当的数据资料。