选型指南:详解8大支持机器学习的数据库

2023-06-05 0 274

(中国计算机系统世界出版发行服务项目出品)

责任编辑中如是说的那些资料库虽然在方式和机能上存在差别,但是都容许采用者在统计数据所处的边线上构筑机器自学数学模型。

选型指南:详解8大支持机器学习的数据库

优先选择网络平台的重中之重准则是“紧邻统计数据”,让标识符紧邻统计数据是维持低延后的必要条件。

机器自学,特别是广度自学常常会数次结点所有统计数据(结点一次被称作两个epoch)。对于十分大的统计数据集而言,平庸的情况是在储存统计数据的地方建立数学模型,这样就不需要大批的统计传输。目前已经有部分资料库在一定某种程度上全力支持这种机能。我们会很大自然嗯到两个问题,即什么样资料库全力支持外部机器自学,它又是如何努力做到的?上面我将对那些资料库展开深入探讨。

Amazon Redshift

Amazon Redshift为代销的PB级统计基础架构服务项目,意在让采用原有数据挖掘辅助工具对统计数据展开预测的工作显得更为单纯且经济高效率。其专门针对特别针对统计数据集展开了强化,生产成本张继强留下来每月每TB不出1000英镑。

Amazon Redshift ML可让SQL采用者能更为随心所欲地采用SQL指示建立、体能训练和布署机器自学数学模型。Redshift SQL中的CREATE MODEL指示单位向量用作体能训练和最终目标列的统计数据,然后透过同两个地区中身份验证的Amazon S3 bucket将统计传输给Amazon SageMaker Autopilot以用作体能训练。

在AutoML体能训练之后,Redshift ML将校对最差数学模型并将其注册登记为Redshift软件产业中的预估表达式。随即,用户可以透过在SELECT句子中初始化预估表达式的方式初始化数学模型展开推断。

总结:透过SQL句子,Redshift ML可采用SageMaker Autopilot利用指定统计数据自动建立预估数学模型。在这过程中,SQL句子会被提取到S3 bucket中。最差的预估表达式会被注册登记在Redshift软件产业中。

BlazingSQL

BlazingSQL是两个建立在RAPIDS生态系统顶层上的由GPU加速的SQL引擎,虽然是开源项目,但是提供付费服务项目。RAPIDS为一套得到了Nvidia全力支持的开源软件库和API,其采用了CUDA并且采用了Apache Arrow列式内存格式。作为RAPIDS的一部分,cuDF为两个类似于Pandas的GPU统计数据帧库,主要用途是对统计数据展开加载、连接、聚合、过滤等操作。

开源辅助工具Dask可将Python套件扩展到多台机器上。此外,Dask还可在同两个系统或多节点软件产业中透过多个GPU分发统计数据和计算。整合了RAPIDS cuDF、XGBoost和RAPIDS cuML的Dask可用作GPU加速的统计数据预测和机器自学当中。

总结:BlazingSQL可以在Amazon S3的统计数据湖上运行GPU加速的查询,然后将生成的统计数据帧传输给cuDF展开统计数据操作,最后再采用RAPIDS XGBoost和cuML执行机器自学,或是采用PyTorch和TensorFlow执行广度自学。

谷歌Cloud BigQuery

BigQuery是谷歌Cloud代销理的PB级统计基础架构。采用者可以透过BigQuery对大批统计数据展开近实时预测。BigQuery ML容许采用者采用SQL查询在BigQuery中建立和执行机器自学数学模型。

选型指南:详解8大支持机器学习的数据库

BigQueryML全力支持用作预估的线性回归、用作分类的二元多类逻辑回归、用作统计数据分割的K-均值聚类、用作建立产品推荐系统的矩阵分解、用作执行时间序列预估的时间序列、XGBoost分类和回归模型、分类和回归数学模型专用的基于TensorFlow的广度神经网络、AutoML Tables、TensorFlow数学模型导入。采用者可以采用来自多个BigQuery统计数据集的统计数据数学模型展开体能训练和预估。虽然BigQuery ML不会从统计基础架构中提取统计数据,但是采用者可以采用CREATE MODEL句子中的TRANSFORM子句,透过BigQuery ML执行特征工程。

总结:BigQuery ML透过SQL语法将谷歌Cloud机器自学引入到了BigQuery统计基础架构,从而不从统计基础架构中提取统计数据。

IBM Db2 Warehouse

虽然IBM Db2 Warehouse是两个代销的公有云服务项目,但是采用者可以在本地或在私有云中布署它。作为两个统计基础架构,IBM Db2 Warehouse包含有内存统计数据处理和用作在线预测处理的列式表格等机能。其Netezza技术提供了强大的预测机能,可高效率查询统计数据。此外,IBM Db2 Warehouse的大批的库和表达式可以帮助采用者获得所需的精确洞察力。

Db2 Warehouse全力支持Python、R和SQL中的资料库机器自学。IDAX模块中有预测储存程序,包括方差预测、关联规则、统计数据转换、决策树、诊断、K均值聚类、K近邻、线性回归、元统计数据管理、naive贝叶斯分类、主要素预测、概率分布、随机抽样、回归树、序列模式与规则,以及参数和非参数统计等等。

总结:IBM Db2 Warehouse包含一系列资料库内SQL预测,例如一些基本的机器自学机能。此外,IBM Db2 Warehouse对R和Python也提供资料库内全力支持。

Kinetica

Kinetica 流统计基础架构(Streaming Data Warehouse)将以往的流统计数据预测与本地的智能和人工智能整合在了两个单一的网络平台上,所有那些都可以透过API和SQL展开访问。Kinetica为GPU加速资料库,不仅具有快速、分布式、柱状和内存优先等特点,还整合了过滤、可视化和聚合等机能。

为了实现大规模的实时预估预测,Kinetica将机器自学数学模型和算法与采用者的统计数据集成在一起,并且容许采用者对预测统计数据管道、机器自学模型、统计数据工程的生命周期以及流计算机系统能展开强化。Kinetica为GPU加速的机器自学提供了两个全生命周期解决方案,包括管理Jupyter笔记本,透过RAPIDS展开数学模型体能训练,以及Kinetica网络平台中的自动数学模型布署和推理。

总结:Kinetica为GPU加速的机器自学提供了两个完整的资料库生命周期解决方案,并且可以利用流统计数据展开预估。

微软SQL Server

微软SQL Server机器自学服务项目在SQL Server RDBMS中全力支持R、Python、Java、PREDICT T-SQL指示和rx_Predict储存程序,在SQL Server Big Data Clusters中全力支持SparkML。在R和Python语言中,微软提供了多个用作机器自学的套件和库。采用者可以将经过体能训练的数学模型储存在资料库中或是资料库外部。Azure SQL Managed Instance全力支持Python和R专用的Machine Learning Services展开预览。

选型指南:详解8大支持机器学习的数据库

R语言可以处理来自磁盘和内存中的统计数据。SQL Server提供了两个扩展框架,以便R、Python和Java标识符可以采用SQL Server统计数据和表达式。SQL Server Big Data Clusters可在Kubernetes中运行SQL Server、Spark和HDFS。当SQL Server初始化Python标识符时,Azure机器自学也可以被初始化,生成的数学模型将被保存在资料库中以用作预估。

总结:当前版本的SQL Server可采用多种编程语言体能训练和推断机器自学数学模型。

甲骨文资料库

甲骨文云基础设施(OCI) Data Science 是一款代销无服务项目器网络平台,可供统计数据科学团队采用包括Oracle Autonomous Database和Oracle Autonomous Data Warehouse在内的OCI构筑、体能训练和管理机器自学数学模型。该网络平台包含有由开放源码社区和Oracle Accelerated Data Science (ADS) Library开发的以Python为中心的辅助工具、库和套件,全力支持预估数学模型端到端的生命周期:

统计数据采集、预测、准备和可视化

特征工程

数学模型体能训练(包括Oracle AutoML)

数学模型评估、解释和说明(包括Oracle MLX)

Oracle Functions中的数学模型布署

OCI Data Science还与包括Functions、Data Flow、Autonomous Data Warehouse和对象储存等OCI堆栈展开了整合。

目前全力支持的数学模型包括:

Oracle AutoML

Keras

Scikit-learn机器自学库

XGBoost

ADSTuner (超参数强化)

此外,ADS还全力支持MLX(机器自学可解释性)。

总结:甲骨文云基础设施(OCI)可以代销与其统计基础架构、对象储存和表达式集成的统计数据科学资源,从而实现完整的数学模型开发生命周期。

Vertica

Vertica预测网络平台为可扩展的列式储存统计基础架构,其有两种运行模式:Enterprise和EON,前一种模式将统计数据储存在本地组成资料库的节点内的文件系统中,后一种模式将统计数据储存在公共的计算节点上。

选型指南:详解8大支持机器学习的数据库

Vertica采用大规模并行运算处理PB级统计数据,并透过统计数据并行展开外部机器自学。该产品有8个用作统计数据准备的内置算法、3个回归算法、4个分类算法、2个聚类算法以及多个数学模型管理表达式,并具备将已体能训练的TensorFlow和PMML数学模型导入至其他地方的机能。在导入了数学模型之后,采用者就可以采用它展开预估。Vertica 还容许采用者采用由C++、Java、Python或R等语言校对的自定义扩展程序。此外,采用者还可以采用SQL语法展开体能训练和推理。

总结:Vertica内置了一套优秀的机器自学算法,并且可以导入TensorFlow和PMML数学模型。采用者既可以采用导入的数学模型展开预估,也可以采用自己体能训练的数学模型展开预估。

其它优先选择:MindsDB

如果采用者的资料库不全力支持内置机器自学,那么他们可以采用MindsDB。该款产品集成了6个资料库和5个数据挖掘工具,全力支持的资料库包括MariaDB、MySQL、PostgreSQL、ClickHouse、微软SQL Server和Snowflake。目前MindsDB还正在努力与MongoDB整合,2021年晚些时候还将会与流资料库实现集成。MindsDB全力支持的数据挖掘辅助工具包括SAS、Qlik Sense、微软Power BI、Looker和Domo。

MindsDB的机能还包括AutoML、AI表和可解释的人工智能(XAI)。采用者可以从MindsDB Studio、SQL INSERT句子或Python API初始化中初始化AutoML体能训练。采用者可以优先选择采用GPU展开体能训练,也可以优先选择建立时间序列数学模型。

采用者可以将数学模型另存为资料库表,然后从已保存数学模型专用的SQL SELECT句子、MindsDB Studio或Python API初始化中初始化它。此外,采用者还可以透过MindsDB Studio对数学模型质量实现评估、解释和可视化。

与此同时,采用者还可以将MindsDB Studio和 Python API 与本地和远程统计数据源联接在一起。MindsDB还额外提供了两个可在PyTorch上运行的简化版广度自学框架Lightwood。

总结:MindsDB为许多不全力支持内置机器自学的资料库带来了机器自学机能。

越来越多的资料库开始在外部全力支持机器自学。虽然机制各不相同,但是有些机制确实性能更为出众。如果拥有大批统计数据,且需要为采样子集优先选择适当的数学模型,那么上面所列的8个资料库,以及全力支持MindsDB的其他资料库都可以帮助采用者为完整的统计数据集构筑数学模型,并且不需要担心因统计数据导出导致费用严重超支。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务