【技术】DTEmpower核心功能技术揭秘(7) – ROD基于回归分析的异常点检测技术

蓝图分享网 2022-12-14 14:56:43 373阅读 0评论
【技术】DTEmpower核心功能技术揭秘(7) – ROD基于回归分析的异常点检测技术 第1张
概述

《DTEmpower核心功能技术揭秘》系列的文章围绕着如何提升机器学习模型的精度,介绍了AIOD、AIAgent、autoML等核心技术。其中AIOD异常点检测技术融合了数十种常见的异常检测算法,用以识别数据集中的异常点;AIAgent和autoML是对训练算法的提升。

本系列的第七篇文章将继续围绕如何让算法逼近模型上限的问题,介绍一种基于回归分析的异常点检测技术-Regression Based Outlier Detection(ROD)技术。不同于传统的异常检测算法,ROD方法是在模型训练的基础上后处理的进行异常点剔除的方法。所以,如何选择合适的异常点剔除个数需要较多的测试,以寻找到最适用于当前测试集的模型。

该技术模块集成于DTEmpower中的每个回归算法节点,能够帮助用户在剔除“潜在异常点”的同时,提高了模型的精度和泛化能力。

【技术】DTEmpower核心功能技术揭秘(7) – ROD基于回归分析的异常点检测技术 第2张

图1  DTEmpower中每个算法节点都集成有ROD异常点检测功能,用户只需要打开对应开关按钮“activate_remove_malform”,并配置异常点剔除的个数“remove_malform_top_N”和迭代次数“remove_malform_times”,即可开启算法节点的ROD异常点检测功能
基于DTEmpower的ROD建模实战 
1. 船舶兴波阻力回归分析
① 数据集介绍:方案中采用的数据集是经SHIPFLOW软件计算兴波阻力的数据集,该数据集中含有5个输入参数,目标参数是兴波阻力eval_CWTWC。 
② 建模方法:采用图2所示的建模方法,对输入和输出之间的映射关系进行回归分析建模。该方法采用了GBDT、Random Forest和ExtraTrees训练算法进行回归分析建模。然后对比在激活ROD和不激活ROD的情况下,模型的R2、MAE等指标。
【技术】DTEmpower核心功能技术揭秘(7) – ROD基于回归分析的异常点检测技术 第3张
图2 基于DTEmpower软件平台的船舶兴波阻力回归分析,选取了GBDT、RandomForest和ExtraTrees算法建立输入输出变量的映射关系。其中ROD异常点检测功能在算法节点的属性配置界面,用户需要结合“activate_remove_malform” “remove_malform_top_N”和“remove_malform_times”3个参数进行搭配使用
③ 实验分析:针对本数据集,可以直观的发现部分样本的eval_CWTWC变量量级较大,因此在使用异常点检测模块之前,使用DTEmpower的【变量范围】节点删除量级过大的数据(结果见图3)。而图4所示的试验结果也证明了ROD在清除异常点、提高模型精度的有效性。

【技术】DTEmpower核心功能技术揭秘(7) – ROD基于回归分析的异常点检测技术 第4张

图3 基于DTEmpower软件平台进行数据过滤前后的数据分布,可以看到过滤后的数据集整体基本上已经处于一个合理的数据分布状态

【技术】DTEmpower核心功能技术揭秘(7) – ROD基于回归分析的异常点检测技术 第5张

图4 随着ROD功能模块不断的删除数据集中的异常点,可以看到3种算法模型的R2指标(越大模型精度越高)呈现出明显的上升趋势,而其MAE指标呈现明显的下降趋势。这表明ROD功能模块在清除异常点、提高模型精度的优秀性能

2. 风机测点结构应力快速评估
① 数据集介绍:某头部风机制造商提供的结构应力评估数据集,含有15维输入特征,共2400个样本,目标是快速评估测点的结构应力。
② 建模方法:根据图5所示的建模流程,采用随机森林算法进行模型训练,然后对比在激活ROD和不激活ROD的情况下模型的精度指标。

【技术】DTEmpower核心功能技术揭秘(7) – ROD基于回归分析的异常点检测技术 第6张

图5 基于DTEmpower软件平台的风机测点结构应力快速评估建模方案,方案中选取2种常见算法进行模型的训练。DTEmpower提供了一站式的数据建模解决方案,通过简单的节点拖拽即可搭建完整的建模流程,其中ROD功能更是集成于每一个算法节点,帮助用户构建高精度的机器学习模型

③ 实验分析:实验结果如图6所示。

【技术】DTEmpower核心功能技术揭秘(7) – ROD基于回归分析的异常点检测技术 第7张

图6 随着ROD功能模块不断的删除数据集中的异常点,可以直观的看到模型的R2指标(越大模型精度越高)呈现明显的上升趋势(左图),MAPE指标(越小模型精度越高)呈现出明显的下降趋势(右图)。这表明ROD功能模块在清除异常点、提高模型精度的有效性
总结 

数据和特征决定了模型的上限,数据中的异常点会对模型的精度造成严重的影响。而DTEmpower中的ROD技术直接以提高模型的精度为目标,寻找并剔除样本中的“潜在异常点”。

实际工业场景中的应用案例和对比实验,也证明了ROD功能模块在挖掘工业数据集中的“潜在异常点”方面的优秀性能,可高效地辅助用户构建高精度模型。

DTEmpower软件平台提供的数据挖掘、特征工程和智能的异常点检测等一站式解决方案,不仅可以帮助用户快速、便捷地构建精度较高的数据模型,其技术的创新应用势必会给工业数据研究者持续带来福音。

免责声明:

1、本站所有资源文章出自互联网收集整理,本站不参与制作,如果侵犯了您的合法权益,请联系本站我们会及时删除。

2、本站发布资源来源于互联网,可能存在水印或者引流等信息,请用户擦亮眼睛自行鉴别,做一个有主见和判断力的用户。

3、本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。

4、侵权违法和不良信息举报 举报邮箱:cnddit@qq.com

发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
验证码
评论列表 (暂无评论,373人围观)

还没有评论,来说两句吧...