(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210063631.2
(22)申请日 2022.01.20
(65)同一申请的已公布的文献号
申请公布号 CN 114091463 A
(43)申请公布日 2022.02.25
(73)专利权人 北京零点远景网络科技有限公司
地址 100020 北京市朝阳区酒仙桥中路24
号院1号楼8层801
专利权人 北京零点有数数据科技股份有限
公司
(72)发明人 包利安 汤灏 郑文博
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 16/35(2019.01)
G06F 40/30(2020.01)(56)对比文件
CN 107045 532 A,2017.08.15
CN 110688549 A,2020.01.14
CN 110363586 A,2019.10.2 2
US 2018075 013 A1,2018.0 3.15
审查员 吴媛媛
(54)发明名称
地区工单乱点分析方法、 装置、 电子设备及
可读存储介质
(57)摘要
本申请涉及人工智能技术领域, 尤其是涉及
地区工单乱点分析方法、 装置、 电子设备及可读
存储介质, 该方法包括, 获取待分析区域的工单
数据; 基于命名实体识别模型对工单数据进行处
理, 获得工单数据中的实体与实体类型; 对工单
数据中的实体进行共指消歧; 基于实体类型以及
预设标准对共指消歧后的实体进行归类, 确定乱
点实体; 对乱点实体进行多维分析, 并根据系统
中待分析区域的地图配置将乱点进行地理可视
化展示, 本申请可以对工单中的乱点进行针对
性、 精准性的分析和定位。
权利要求书2页 说明书8页 附图2页
CN 114091463 B
2022.04.12
CN 114091463 B
1.一种地区工单乱点分析 方法, 其特 征在于, 包括,
获取待分析区域的工单 数据;
基于命名实体识别模型对所述工单数据进行处理, 获得所述工单数据中的实体与实体
类型; 对所述工单 数据中的实体进行共指消歧;
基于所述实体 类型以及预设标准对 共指消歧后的所述实体进行归类, 确定乱点实体;
对所述乱点实体进行多维分析, 并根据系统中待分析区域的地图配置将所述乱点进行
地理可视化展示;
所述命名实体识别模型通过以下步骤进行训练:
获取工单样本数据;
对所述工单样本数据进行预处理, 基于BERT模型将所述工单样本数据中的文本数据转
换为语义编码向量;
以所述语义编码向量作为输入, 以所有实体和实体类型作为输出, 以transformer模型
作为特征向量提取表 示, 以CRF作为损失函数, 以维特比算法作为 实体与实体类型的推理算
法, 完成对所述命名实体识别模型的训练;
所述对所述工单样本数据进行预处理, 基于BERT模型将所述工单样本数据中的文本信
息转换为语义编码向量包括,
根据预设实体 类型特征对样本数据进行 标注, 获得第一标签样本数据;
将所述第一标签样本数据转换为BIO字符标注体系的数据, 得到第二标签样本数据;
对所述第二标签样本数据进行分词, 在每条文本数据的开头连接 CLS标记;
对分词后的文本数据进行 embedding向量化表示, 得到 CLS语义编码向量。
2.根据权利要求1所述的地区工单乱点分析 方法, 其特 征在于, 还 包括,
设置全连接层, 将CLS语义编码向量作为所述全连接层的输入, 输出维度长度为两倍的
实体类型个数加上1。
3.根据权利要求2所述的地区工单乱点分析 方法, 其特 征在于,
采用如下损失函数作为优化目标:
其中, 所述 k为所述全连接层输出的维度长度;
所述yk为真实标签;
所述Yx为真实输出序列;
所述
为真实序列得分;
所述Tyk, yk+1为状态转移 矩阵;
所述X为前述工单样本数据的输入序列[x1, x2,…xk];
所述Y为对应预测的标签序列值[y1, y2,…yk];
所述
为真实序列中所有可能的位置序列的状态转移特征权重值, 包括yk和非权 利 要 求 书 1/2 页
2
CN 114091463 B
2yk。
4.根据权利要求2所述的地区工单乱点分析 方法, 其特 征在于,
将最后一层的cls标记字符向量表示, 作为下一层的输入向量:
其中, 所述 n为单个单词向量长度。
5.根据权利要求1所述的地区工单乱点分析方法, 其特征在于, 所述对所述工单数据中
的实体进行共指消歧包括,
利用ner模型提取 所述工单 数据的特 征向量;
基于皮尔逊相关系数对提取的所述实体对应的特 征向量值进行余弦相似度计算;
根据所述 余弦相似度以及皮尔逊相似度系数计算任两个实体的联合相似度指标;
将所述联合相似度指标 大于预设阈值的两个实体定义 为同一实体。
6.一种电子设备, 包括存储器和处理器, 所述存储器上存储有计算机程序, 其特征在
于, 所述处 理器执行所述程序时实现如权利要求1~5中任一项所述的方法。
7.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器
执行时实现如权利要求1~5中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114091463 B
3
专利 地区工单乱点分析方法、装置、电子设备及可读存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:49上传分享