(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210326847.3
(22)申请日 2022.03.30
(71)申请人 北京三快在线科技有限公司
地址 100080 北京市海淀区北四环西路9号
2106-030
(72)发明人 温丽云 胡炎根 江会星
(74)专利代理 机构 北京润泽恒知识产权代理有
限公司 1 1319
专利代理师 任亚娟
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/247(2020.01)
G06F 40/30(2020.01)
G06F 40/157(2020.01)
G06K 9/62(2022.01)G06F 16/332(2019.01)
G06F 16/33(2019.01)
G06F 16/338(2019.01)
(54)发明名称
关键词语的提取方法、 装置及电子设备
(57)摘要
本申请实施例提供了一种关键词语的提取
方法、 装置及电子设备, 该方法包括: 对目标文本
进行分词处理, 得到多个候选关键词语; 针对每
一候选关键词语, 确定预设词表中对应候选关键
词语的目标词语, 其中, 目标词语包括第一目标
词语或第二目标词语, 第二目标词语为预设词表
中不存在与候选关键词语相同的词语的情况下,
候选关键词语的近义词语; 针对每一目标词语,
将目标词语对应的特征集合中的各特征进行特
征融合, 得到输入特征, 将每一目标词语的输入
特征输入预先训练好的排序模型, 输出排序模型
输出的前目标数量的目标词语。 本申请采用未登
录词的近义词对 未登录词进行替换, 从而可以很
好的识别不同的未登录词, 进而提升关键词语的
提取结果。
权利要求书2页 说明书10页 附图3页
CN 114692626 A
2022.07.01
CN 114692626 A
1.一种关键词语的提取 方法, 其特 征在于, 所述方法包括:
对目标文本进行分词处 理, 得到多个候选关键词语;
针对每一所述候选关键词语, 确定预设词表中对应所述候选关键词语的目标词语, 其
中, 所述目标词语包括第一 目标词语或第二 目标词语, 所述第一 目标词语为所述预设词表
中存在与所述候选关键词语相同的词语的情况下, 与所述候选关键词语相同的词语, 所述
第二目标词语为所述预设词表中不存在与所述候选 关键词语相同的词语的情况下, 所述候
选关键词语的近义词语;
针对每一所述目标词语, 将所述目标词语对应的特征集合中的各特征进行特征融合,
得到输入 特征, 其中, 所述特征集合中包括: 预先 统计的目标语料库中所述目标词语的表征
左信息熵的第一特征、 表征右信息熵的第二特征、 表征逆文本频率指数的第三特征、 表征点
间互信息的第四特 征以及表征词性的第五特 征中的多个;
将每一所述目标词语的输入特征输入预先训练好的排序模型, 输出所述排序模型输出
的前目标 数量的目标词语。
2.根据权利要求1所述的方法, 其特征在于, 所述确定预设词表中对应所述候选关键词
语的目标词语, 包括:
在所述预设词表中查询所述第一目标词语;
在查询到所述第一目标词语的情况 下, 将所述第一目标词语确定为目标词语;
在未查询到所述第 一目标词语的情况下, 基于所述预设词表中每一词语关联的近义词
确定所述第二目标词语, 将所述第二目标词语确定为目标词语。
3.根据权利要求1所述的方法, 其特征在于, 所述将每一所述目标词语的输入特征输入
预先训练好的排序模型, 输出 所述排序模型输出的前目标 数量的目标词语, 包括:
将每一所述目标词语的输入特征以及预设词语的输入特征输入预先训练好的排序模
型, 输出所述排序模型输出的位于所述预设词语之前的所有目标词语。
4.根据权利要求1所述的方法, 其特征在于, 在所述目标文本包括多轮对话的情况下,
所述特征集合中还包括: 表征所述 目标词语在所述 目标文本中的位置的第六特征、 表征所
述目标词语在所述目标文本中的轮次的第七特征、 表征所述目标词语所属角色的第八特征
以及表征 所述目标词语的字符串长度的第九特 征中的多个。
5.根据权利要求1所述的方法, 其特征在于, 所述特征集合中还包括: 表征所述目标词
语与所述 候选关键词语的相似度的第十特 征。
6.根据权利要求1所述的方法, 其特征在于, 所述特征集合中还包括: 表征目标词语所
属语句与预设语句模板匹配情况的匹配特 征。
7.一种关键词语的提取装置, 其特 征在于, 所述装置包括:
分词模块, 用于对目标文本进行分词处 理, 得到多个候选关键词语;
词表模块, 用于针对每一所述候选关键词语, 确定预设词表中对应所述候选关键词语
的目标词语, 其中, 所述目标词语包括第一目标词语或第二目标词语, 所述第一目标词语为
所述预设词表中存在与所述候选关键词语相同的词语的情况下, 与所述候选关键词语相同
的词语, 所述第二目标词语为所述预设词表中不存在与所述候选关键词语相同的词语的情
况下, 所述候选关键词语的近义词语;
特征模块用于针对每一所述目标词语, 将所述目标词语对应的特征集合中的各特征进权 利 要 求 书 1/2 页
2
CN 114692626 A
2行特征融合, 得到输入特征, 其中, 所述特征集合中包括: 预先统计的目标语料库中所述目
标词语的表征左信息熵的第一特征、 表征右信息熵的第二特征、 表征逆文本频率指数 的第
三特征、 表征点间互信息的第四特 征以及表征词性的第五特 征中的多个;
输出模块, 用于将每一所述目标词语的输入特征输入预先训练好的排序模型, 输出所
述排序模型输出的前目标 数量的目标词语。
8.根据权利要求7所述的装置, 其特征在于, 所述词表模块, 具体用于在所述预设词表
中查询所述第一目标词语; 在查询 到所述第一 目标词语的情况下, 将所述第一目标词语确
定为目标词语; 在未查询 到所述第一 目标词语的情况下, 基于所述预设词表中每一词语关
联的近义词确定所述第二目标词语, 将所述第二目标词语确定为目标词语。
9.根据权利要求7所述的装置, 其特征在于, 所述输出模块, 具体用于将每一所述目标
词语的输入特征以及预设词语的输入特征输入预先训练好的排序模型, 输出所述排序模型
输出的位于所述预设词语之前的所有目标词语。
10.根据权利要求7所述的装置, 其特征在于, 在所述目标文本包括多轮对话的情况下,
所述特征集合中还包括: 表征所述 目标词语在所述 目标文本中的位置的第六特征、 表征所
述目标词语在所述目标文本中的轮次的第七特征、 表征所述目标词语所属角色的第八特征
以及表征 所述目标词语的字符串长度的第九特 征中的多个。
11.根据权利要求7所述的装置, 其特征在于, 所述特征集合中还包括: 表征所述目标词
语与所述 候选关键词语的相似度的第十特 征。
12.根据权利要求7所述的装置, 其特征在于, 所述特征集合中还包括: 表征目标词语所
属语句与预设语句模板匹配情况的匹配特 征。
13.一种电子设备, 其特征在于, 包括: 处理器、 存储器以及存储在所述存储器上并可在
所述处理器上运行 的计算机程序, 所述处理器执行所述程序时实现如权利要求1 ‑6中任意
一项所述的关键词语的提取 方法。
14.一种可读存储介质, 其特征在于, 当所述存储介质中的指令由电子设备的处理器执
行时, 使得电子设备能够执 行如权利要求1 ‑6中任意一项所述的关键词语的提取 方法。权 利 要 求 书 2/2 页
3
CN 114692626 A
3
专利 关键词语的提取方法、装置及电子设备
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:16上传分享