安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111681654.1 (22)申请日 2021.12.3 0 (71)申请人 华能上海燃 机发电有限责任公司 地址 200942 上海市宝山区盛 石路298号 (72)发明人 王永康 徐刚 陈瑞捷 汪辰  李清平 吴彬 龚熠  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 专利代理师 蔡彭君 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06Q 10/04(2012.01) G06Q 50/06(2012.01) G06F 111/08(2020.01) (54)发明名称 一种基于 XGBoost算法的机组设备基准值预 测方法及系统 (57)摘要 本发明涉及一种基于XGBoost算法的机组设 备基准值预测方法及系统, 方法包括以下步骤: 获取机组 中设备的历史运行数据, 并对数据进行 预处理, 构建包含多个样本的数据集, 每个样本 包括多个特征, 对应设备多个参数的基准值; 利 用RF袋外估计进行特征重要 性计算, 剔除重要 性 低的特征; 对特征进行标准化处理, 消除特征之 间的量纲影响; 输入数据集, 构建XGBoost模型, 并进行贝叶斯超参数寻优, 得到基准值预测模 型; 输入设备运行的实时数据, 通过基准值预测 模型预测得到设备各个参数的基准值。 与现有技 术相比, 本发明基于XGBoost算法挖掘数据之间 的关联性, 能够预测出较合理的设备基准值, 泛 化能力强、 预测精度高、 运算速度快, 大大提高了 机组的自动化能力。 权利要求书3页 说明书10页 附图1页 CN 114595623 A 2022.06.07 CN 114595623 A 1.一种基于XGBo ost算法的机组设备基准 值预测方法, 其特 征在于, 包括以下步骤: S1、 获取机组中设备的历史运行数据, 并对数据进行预处理, 构建包含多个样本的数据 集, 每个样本包括多个特 征, 对应设备多个参数的基准 值; S2、 利用RF袋外估计对数据进行 特征重要性计算, 剔除重要性低的特 征; S3、 对数据集中的样本的特 征进行标准化处理, 消除特 征之间的量纲影响; S4、 输入数据集, 构建XGBo ost模型, 并进行贝叶斯超参数寻优, 得到基准 值预测模型; S5、 输入设备运行的实时数据, 通过基准 值预测模型 预测得到设备 各个参数的基准 值。 2.根据权利 要求1所述的一种基于XGBoost算法的机组设备基准值预测方法, 其特征在 于, 所述步骤S1具体为: S11、 自机组的厂 级信息监测系统SIS中获取设备的历史运行 数据; S12、 对数据进行空缺 值、 异常值检查, 剔除存在空缺 值、 异常值的数据; S13、 过滤拉直线型 数据; S14、 对数据的特征进行PCA降维, 得到包含多个样本的数据集, 每个样本包含多个特 征。 3.根据权利 要求1所述的一种基于XGBoost算法的机组设备基准值预测方法, 其特征在 于, 步骤S2具体为: 对于样本的每个特征, 采用随机森林RF袋外估计对特征进行重要性排序并进行特征选 择, 以平均精度下降率MDA作为指标进行 特征重要性计算, 公式如下: 其中, n表示随机森林构建的基分类器的数量, errOOBt表示第t个基分类器的袋外误差, errOOB′t表示第t个基分类器加入噪声后的袋外误差, MDA下降越多, 说明特征的重要性越 高。 4.根据权利 要求1所述的一种基于XGBoost算法的机组设备基准值预测方法, 其特征在 于, 步骤S 3中, 数据集中含有N个样 本, 每个样 本有L类特征, 采用Z ‑score标准化方法分别对 每个样本的每 类特征进行标准化处理, 具体为: 其中, xnl表示第n个样本的第l类特征的特征数据, 表示第n个样本的第l类特征标准 化处理后的特征数据, μl表示N个样本中第l类特征的特征数据均值, σl表示N个样本中第l类 特征的特征数据标准差 。 5.根据权利 要求1所述的一种基于XGBoost算法的机组设备基准值预测方法, 其特征在 于, 步骤S4包括以下步骤: S41、 输入含有N个样 本的数据集T, T={(X1, Y1)、 (X2, Y2)、 (X3, Y3)、 ...、 (XN, YN)}, 每个样 本有L类特 征, Xi=(xi1, xi2,…, xiL), 对应设备M个参数的基准 值, Yi=(yi1, yi2,…, yiM); S42、 建立XGBo ost模型迭代的目标函数:权 利 要 求 书 1/3 页 2 CN 114595623 A 2其中, λ为L2正则惩 罚项系数; γ为L1正则惩罚项系数; K为决策树的叶子节点总数; Yi为第i个样本的真实值; 为第i个样本(t ‑1)次迭代后的预测值; 定义索引为 k的叶子上含有的样本集 合是Ik; S43、 设定XGBoost模型超参数调节范围, 利用 贝叶斯优化算法进行XGBoost超参数寻 优, 得到超参数的最优组合; S44、 将超参数的最优组合输入XGBoost模型, 利用数据集T, 根据目标函数O(t)进行训 练; S45、 若训练得到 的XGBoost模型的预测性能满足预设置的精度阈值, 则记录此次超参 数的最优组合, 得到基准 值预测模型, 否则, 执 行步骤S43, 再次进行 XGBoost超参数寻优。 6.根据权利 要求5所述的一种基于XGBoost算法的机组设备基准值预测方法, 其特征在 于, 步骤S43中, XGBo ost模型的超参数包括: 学习率, 参数调节范围为[0.1, 0.15]; 树的最大深度, 参数调节范围为(5, 3 0); 复杂度的惩罚项, 参数调节范围为(0, 3 0); 随机抽取样本比例, 参数调节范围为(0, 1); 特征随机采样比例, 参数调节范围为(0.2, 0.6); 权重的L2范 数正则化项, 参数调节范围为(0, 10); 决策树的数量, 参数调节范围为(5 00, 1000); 最小叶结点权 重和, 参数调节范围为(0, 10)。 7.根据权利 要求5所述的一种基于XGBoost算法的机组设备基准值预测方法, 其特征在 于, 步骤S45中XGBoost模型的预测性能包括平均绝对百分比误差和决定系数, 计算公式如 下: 其中, eMAPE表示平均绝对百分比误差, R2表示决定系数, Yi表示数据 集中第i个样本的基 准值, 表示XGBoost模型根据第i个样本的特征Xi预测得到的基准值, 表示数据集中N个 样本基准 值的平均值。 8.一种基于XGBoost算法的机组设备基准值预测系统, 其特征在于, 基于如权利 要求1‑权 利 要 求 书 2/3 页 3 CN 114595623 A 3

.PDF文档 专利 一种基于XGBoost算法的机组设备基准值预测方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于XGBoost算法的机组设备基准值预测方法及系统 第 1 页 专利 一种基于XGBoost算法的机组设备基准值预测方法及系统 第 2 页 专利 一种基于XGBoost算法的机组设备基准值预测方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:26:30上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。