原副标题:充分发挥统计数据商业价值!统计数据驱动力的笔记导出与极度检验方式如是说!
本其原因。暗藏的多样重要信息为预测控制系统难题提供更多了两个较好的视点。因而,透过在大批笔记统计数据中发掘笔记重要信息,紧密结合统计数据驱动力的方式,能协助进一步增强控制系统的身心健康、灵活性和易用性。
一、笔记导出如是说
随著当代计算机控制系统体量和复杂性的减少,笔记统计数据呈爆发式快速增长。派生出了大批统计数据驱动力的方式,以满足用户笔记自动检验极度的市场需求。
1、笔记极度检验业务流程
在极度检验以后,须要对笔记统计数据展开搜集、导出、求逆等处置。
▲ 笔记极度检验业务流程
笔记收集与后处置
市场需求,将笔记统计数据中的合宪重要信息展开除去,主要包括多次重复重要信息、无用重要信息等。笔记重要信息中的该事件字符串如图:
▲ Hadoop笔记实例
笔记导出
个该事件的模版。笔记导出从无内部结构的笔记中抽取适当的该事件模版,每一模版由数个选定模块形成,做为先期求逆的此基础。
求逆
透过预设一般来说的天数覆盖范围做为询问处,对询问处内笔记文本展开导出,提炼出当中的该事件模版,将笔记切分成一组笔记该事件字符串 Log,进而从抽取重要信息中选择合适的变量和分组来表示相关文本,并展开数字化向量表示,构建成特征向量,方便先期展开机器学习。
实际导出中,能将不同服务器的操作展开关联预测,获得更多的极度重要信息。例如,针对服务器 “ZooKeeperServer” 构建特征向量<2,1,1, …>,表示该事件1 “server environment” 发生2次,该事件 “client attempting to establish new session” 、 “established session” 各发生 1 次。最终,能由不同天数段形成的特征向量构建成特征矩阵。
当中,笔记统计数据的导出是先期极度预测的重要此基础。
2、笔记统计数据导出方式
笔记本身是对一系列控制系统或应用中发生的该事件展开记录,两个记录通常代表两个该事件发生的相关具体文本,笔记记录通常包含但不限于该事件的天数、源头、标签、重要信息等。透过一些机器学习的方式能对当中的详细重要信息展开导出。以下是几种常见的基于机器学习的笔记导出技术:
基于聚类的统计数据发掘方式:
主要透过计算对笔记展开聚类,进而展开统计数据发掘,形成该事件模版,完成对笔记的导出。
基于自然语言处置的导出方式:
使用自然语言处置对笔记展开导出。首先,将文本划分为单词展开标记;然后,对单个单词展开词干预测、同义词替换、停用词删除等;之后,将单词列表中的句子转化为矢量表示形式,之后运用一些无监督聚类算法展开分类。
文本相似度计算方式:
透过对文本相似度展开计算,合并类似模版,实现快速笔记导出,例如:利用最长公共子字符串算法(LCS)以流方式导出笔记。
二、笔记极度检验
在完成笔记统计数据的导出之后,就须要透过笔记极度检验,来对控制系统运行情况展开判断,辅助运维人员展开运维工作。
常见的笔记极度检验方式能分为有监督和无监督两种,如聚类预测、决策树等。例如,在将笔记重要信息标记为正常、 极度后,根据抽取的特征展开聚类预测。首先对各个特征赋予不同权重;然后将特征向量展开归一化处置;之后定义特征向量之间的相似性(即距离大小);最后对笔记间的相似性展开判断,定义是否为极度。针对极度检验结果,进一步展开人工预测和确认,结果能做为样本加入统计数据集中,对模型展开修正。
近年来也发展出了许多基于深度学习的方式,如基于LSTM的深度学习方式等。透过对特征向量展开学习,对输入特征矩阵机器学习模型展开训练,从而生成两个极度检验模型,并使用该模型对新的笔记展开检验。
1、监督学习方式
一种从标记的训练统计数据中得出模型的机器学习方式。带标签的训练统计数据(透过标签指示正常或极度状态)是监督极度检验的先决条件,训练统计数据标签越多,模型越精确。在基于笔记的极度检验方面使用的机器学习方式较为宽泛。例如:LogClass,这种方式首先后处置设备笔记,并产生词描述方式的矢量,然后透过机器学习方式(例如:SVM)来训练极度检验和分类模型,最后展开在线极度检验。还有一些其他方式,利用一些常见的机器学习模型如:逻辑回归、KNN算法等展开笔记极度检验。
2、无监督学习方式
无监督学习方式指没有任何标记的训练统计数据情况下得到模型的机器学习方式。常见的无监督方式主要包括各种聚类方式、关联规则发掘、基于主成分预测等。
聚类方式
方式思想:透过预测笔记特点,把笔记划分为不同的分组,组内的笔记相似度越大越好,组间的笔记相似度越小越好。计算笔记间相似度,根据相似度用适当的方式把笔记分成不同的类,最后抽取笔记模版。例如,LogCluster和Log2vec是两种较为典型的极度检验方式。
LogCluster:
是一种将笔记聚类来展开笔记难题识别的方式。首先将每一笔记序列透过两个向量表示,然后计算两个笔记字符串之间的相似度值,并应用聚集层次聚类技术将相似的笔记字符串分组为聚类。
Log2vec:
是一种基于异构图嵌入的威胁检验方式。首先,根据笔记条目之间的关系 将其转换为异构图;然后使用改进图嵌入方式,能自动将每一笔记描述为两个低维的向量;最后,透过检验算法,能将恶意笔记和良性笔记展开聚类,识别出恶意行为。
关联规则发掘
例如:透过最长公共子字符串(LCS)方式将笔记导出为数组。然后,使用天数关联预测(TCA)将相似该事件聚类,找出操作的关键该事件。最后,根据标记展开极度检验。
除此以外还有其他的笔记极度检验方式,如基于主成分预测法(PCA)。
3、深度学习方式
利用卷积神经网络(CNN)的优势,能有效地抽取并行方式中的空间特征,并透过长短期记忆(LSTM)网络来捕获顺序关系。例如:
DeepLog
是主要使用长短期记忆的神经网络模型,将控制系统笔记建模为自然语言字符串。DeepLog 从正常执行中自动学习笔记模型,并透过该模型, 对正常执行下的笔记统计数据展开极度检验。
SwissLog
该方式主要主要包括两个阶段,即离线处置阶段和在线处置阶段。每一阶段主要包括笔记导出、句子嵌入、模型训练阶段,在线阶段还主要包括极度检验阶段。
笔记导出部分对历史笔记统计数据展开分词、字典化和聚类,抽取数个模版,这些笔记语句与相同的标识符联系起来构建笔记字符串,然后将笔记字符串转化为语义重要信息和天数重要信息。 句子嵌入部分使用BERT模型或Word2Vec模型对句子展开编码,转化为词向量。 模型训练阶段,将这些语义重要信息和天数重要信息输入到神经网络模型中学习正常、极度的笔记字符串的特征。除上述方式外,还有基于文本特征建模,基于工作流,基于不变发掘 (IM)等其他极度检验方式。
三、嘉为鲸眼笔记中心
笔记导出与极度检验和对笔记统计数据商业价值充分发挥至关重要,企业通常也须要引入适当的工具,构建笔记管理能力,确保笔记统计数据充分发挥商业价值,保障业务的平稳运行。
嘉为鲸眼笔记中心集成了笔记智能化聚类、智能化极度预测场景,基于笔记极度检验能力,能协助IT人员快速预测笔记及识别极度,提升运维效率,为企业构建一站式笔记管理平台,实现从采集至分析全业务流程统一笔记管理,提升笔记管理场景效能,提速排障最后一公里。
快速掌握笔记全貌
千万笔记统计数据聚合成十几种格式类型,提高重要信息密度,避免大批天数看多次重复统计数据。
敏锐捕捉动态极度
每种笔记格式的笔记量变化可视化,迅速清晰地观察笔记异变。
动态配置监控策略
无需知晓和人工配置笔记极度规则,自动根据特定格式的笔记量统计来判断是否极度。
辅助定位代码级别的难题
笔记聚类能将代码运行映射到笔记展示,赋予运维透过笔记探查故障的钥匙。
面向企业IT研发和运维,满足用户分布式架构下海量笔记采集及存储、检索及预测。基于业界主流的全文检索引擎,透过蓝鲸专属 Agent 提供更多多种场景化笔记采集,提供更多快速检索预测、辅助故障定位功能。产品具备五大优势,为客户提供更多笔记管理场景商业价值。
√ 方案优势
采集多样:不同终端不同格式笔记统一采集,采集过程中支持导出、脱敏、过滤,采集简单便捷;
推广便捷:内置常用组件的笔记导出模版和仪表盘模版,且允许用户自建笔记导出模版库,方便接入推广;
智能高效:融合蓝鲸海量统计数据预测底座和智能化组件,实现高效的笔记智能聚类,智能极度检验和告警;
联动流畅:和监控告警体系打通,快捷配置笔记关键字、笔记指标告警,无需依赖跳转;
信创适配:已适配多种国产化设备和控制系统,也可完成对信创设备的采集。
√ 客户商业价值
高效排障:联动蓝鲸此基础监控告警,实现关键字、笔记指标极度检验,告警通知,明细笔记下钻,高效故障定位;
统计数据安全:提供更多完善的权限管控、统计数据隔离以及敏感统计数据能保护能力,保障统计数据安全,满足用户统计数据安全管理诉求;
成本优化:提供更多统计数据分层架构,按照冷、热统计数据分层,合理降低存储成本;
便捷推广:紧密结合蓝鲸Agent能力实现笔记采集插件一键部署、批量安装、性能稳定。
如果您想要了解更多笔记统计数据管理相关文本,或有相关建设市场需求,欢迎联系我们!