安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210500042.6 (22)申请日 2022.05.06 (71)申请人 北京沃东天骏信息技 术有限公司 地址 100176 北京市大兴区北京经济技 术 开发区科创十一街18号院2号楼4层 A402室 申请人 北京京东世纪贸易有限公司 (72)发明人 郭晓洁 吴凌飞 李恺健 陈佳佳 刁世亮 何臻 (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 专利代理师 陈媛婧 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01)G06F 40/216(2020.01) G06F 16/35(2019.01) (54)发明名称 文本素材的语义识别方法、 装置、 电子设备 和可读介质 (57)摘要 本公开提供一种文本素材的语义识别方法、 装置、 电子设备和可读介质, 其中, 文本素材的语 义识别方法包括: 对待处理的文本素材进行分词 处理, 以得到分词; 按照预设的关注点与关键词 之间的对应关系对分词进行匹配处理; 若匹配失 败, 则将文本素材输入至训练好的主题识别模 型, 主题识别模 型输出文本素材对应于各个关注 点的概率; 根据文本素材对应于各个 关注点的概 率确定文本素材的语义主题。 通过本公开实施 例, 提高了文本素材的语义识别的可靠性、 准确 性和效率。 权利要求书3页 说明书12页 附图7页 CN 114896982 A 2022.08.12 CN 114896982 A 1.一种文本素 材的语义识别方法, 其特 征在于, 包括: 对待处理的文本素 材进行分词处 理, 以得到分词; 按照预设的关注点与关键词之间的对应关系对所述分词进行匹配处 理; 若匹配失败, 则将所述文本素材输入至训练好的主题识别模型, 所述主题识别模型输 出所述文本素 材对应于各个所述关注点的概 率; 根据所述文本素 材对应于各个所述关注点的概 率确定所述文本素 材的语义主题。 2.如权利要求1所述的文本素 材的语义识别方法, 其特 征在于, 还 包括: 若匹配成功, 则根据所述分词对应的关注点确定所述文本素 材的语义主题。 3.如权利要求1所述的文本素材的语义识别方法, 其特征在于, 在对待处理的文本素材 进行分词处 理前, 还包括: 确定待训练的主题 识别模型; 将所述文本素材的样本和预设的关注点个数输入至所述待训练的主题识别模型进行 训练, 并记录每次训练的一 致性分数; 将最大的所述一致性分数对应的主题识别模型确定为初级训练后的所述主题识别模 型。 4.如权利要求3所述的文本素材的语义识别方法, 其特征在于, 在对待处理的文本素材 进行分词处 理前, 还包括: 在完成所述主题识别模型的初级训练后, 确定所述关注点对应的文本素材的样本的数 量; 根据所述文本素 材的样本的数量对所述关注点进行合并或拆分。 5.如权利要求4所述的文本素材的语义识别方法, 其特征在于, 根据所述文本素材的样 本的数量对所述关注点进行合并或拆分包括: 确定所述文本素 材的样本的数量与预设样本数量之间的大小关系; 确定所述文本素 材的样本的数量小于所述预设样本数量的关注点 为第一类关注点; 对多个所述第一类关注点进行合并。 6.如权利要求4所述的文本素材的语义识别方法, 其特征在于, 根据所述文本素材的样 本的数量对所述关注点进行合并或拆分还 包括: 确定所述文本素 材的样本的数量与预设样本数量之间的大小关系; 确定所述文本素材的样本的数量大于或等于所述预设样本数量的关注点为第二类关 注点; 将所述第一类关注点 合并至所述第二类关注点; 对所述第二类关注点进行切词; 根据所述第二类关注点的切词结果进行拆分。 7.如权利要求5或6所述的文本素材的语义识别方法, 其特征在于, 在对待处理的文本 素材进行分词处 理前, 还包括: 在完成所述关注点的合并或拆分后, 更新所述关注点对应所述文本素 材样本的概 率; 在完成全部所述关注点的概 率更新后, 确定所述主题 识别模型训练完成。 8.如权利要求1 ‑6中任一项所述的文本素材的语义识别方法, 其特征在于, 在对待处理 的文本素 材进行分词处 理前, 还包括:权 利 要 求 书 1/3 页 2 CN 114896982 A 2在完成所述主题识别模型的训练后, 对所述关注点对应的文本素材的样本进行聚类处 理; 根据词频对聚类处 理后的文本素 材的样本进行关键 字提取。 9.如权利要求1 ‑6中任一项所述的文本素材的语义识别方法, 其特征在于, 根据 所述文 本素材对应于各个所述关注点的概 率确定所述文本素 材的语义主题包括: 确定所述文本素 材对应于各个所述关注点的概 率; 确定概率最大的关注点为第 一类关注点, 并根据 所述第一类关注点确定所述文本素材 的第一主题; 将所述主题 识别模型中除所述第一类关注点外的关注点确定为第二类关注点; 计算所述第一类关注点的概 率与所述第二类关注点的概 率之间的概 率差; 判断所述 概率差是否小于或等于预设概 率差; 若判定所述概率差小于或等于所述预设概率差, 则根据 所述第二类关注点确定所述文 本素材的第二主题, 根据所述第一主题和所述第二主题确定所述文本素 材的语义; 若判定所述概率差均 大于所述预设概率差, 则根据 所述第一主题确定所述文本素材的 语义。 10.一种文本素 材的语义识别装置, 其特 征在于, 包括: 分词模块, 设置为对待处 理的文本素 材进行分词处 理, 以得到分词; 匹配模块, 设置为按照预设的关注点与关键词之间的对应关系 对所述分词 进行匹配处 理; 识别模块, 设置为若 匹配失败, 则将所述文本素材输入至训练好的主题识别模型, 所述 主题识别模型输出 所述文本素 材对应于各个所述关注点的概 率; 确定模块, 设置为根据 所述文本素材对应于各个所述关注点的概率确定所述文本素材 的语义主题。 11.如权利要求10所述的文本素材的语义识别装置, 其特征在于, 所述确定模块还设置 为: 若匹配成功, 则根据所述分词对应的关注点确定所述文本素 材的语义主题。 12.如权利要求10所述的文本素材的语义识别装置, 其特征在于, 所述确定模块还设置 为: 确定待训练的主题 识别模型; 将所述文本素材的样本和预设的关注点个数输入至所述待训练的主题识别模型进行 训练, 并记录每次训练的一 致性分数; 将最大的所述一致性分数对应的主题识别模型确定为初级训练后的所述主题识别模 型。 13.如权利要求12所述的文本素材的语义识别装置, 其特征在于, 所述确定模块还设置 为: 在完成所述主题识别模型的初级训练后, 确定所述关注点对应的文本素材的样本的数 量; 根据所述文本素 材的样本的数量对所述关注点进行合并或拆分。 14.如权利要求13所述的文本素材的语义识别装置, 其特征在于, 所述确定模块还设置权 利 要 求 书 2/3 页 3 CN 114896982 A 3
专利 文本素材的语义识别方法、装置、电子设备和可读介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:12
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
GB-T 38548.5-2020 内容资源数字化加工 第5部分:质量控制.pdf
GB 4396-2005 二氧化碳灭火剂.pdf
GB-T 16638.1-2008 空气动力学 概念、量和符号 第1部分:空气动力学常用术语.pdf
T-CSEIA 1003—2023 能源工业互联网平台 发电侧电力数据的分类分级规范.pdf
NB-T 10869—2021 水电工程移民安置生活污水处理技术规范.pdf
GB-T 39854-2021 光伏发电站性能评估技术规范.pdf
GB-T 18386.1-2021 电动汽车能量消耗量和续驶里程试验方法 第1部分:轻型汽车.pdf
GM-T 0021-2012 动态口令密码应用技术规范.pdf
GB-T 18103-2022 实木复合地板.pdf
ISO 14644-4 2022 Cleanrooms and associated controlled environments — Part 4 Design, construction and start-up.pdf
GA-T 1718-2020 信息安全技术 大数据平台安全管理产品安全技术要求.pdf
T-CVMA 45—2020 犬腺病毒PCR检测方法.pdf
GB-T 42591-2023 燃气轮机 质量控制规范.pdf
GB/T 40127-2021 全断面隧道掘进机 顶管机安全要求.pdf
DB37-T 4203.1—2020 林业碳汇计量监测体系建设规范 第1部分:导则 山东省.pdf
GB-T 34679-2017智慧矿山信息系统通用技术规范.pdf
T-GZBZ 33—2022 事故多发道路判别与改善技术指南.pdf
T-CAAMTB 15—2020 车载毫米波雷达测试方法.pdf
DB13-T 5372-2021 社会工作服务项目监测与 评估规范 河北省.pdf
GB-T 43236-2023 城市生态风险评价技术指南.pdf
1
/
3
23
评价文档
赞助2.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。