(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210262775.0
(22)申请日 2022.03.17
(71)申请人 网易 (杭州) 网络有限公司
地址 310056 浙江省杭州市滨江区网商路
599号网易大厦
(72)发明人 汪硕芃 张林箭 宋有伟 张聪
吕唐杰 范长杰 胡志鹏
(74)专利代理 机构 北京元合联合知识产权代理
事务所 (特殊普通合伙)
11653
专利代理师 李非非
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/332(2019.01)
G06F 16/35(2019.01)G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
意图识别的方法、 装置、 设备和介质
(57)摘要
本申请公开了一种意图识别的方法、 装置、
设备和介质, 该方法包括: 获取训练样本集合, 该
训练样本集合包括多个训练样 本, 每个训练样本
为抽象化意图的字符组合, 训练样 本至少包括有
序排列的关注字符; 在去重后训练样本集合的总
字符数量大于或等于第一阈值时, 根据字符出现
次数对每个训练样本进行压缩处理, 得到压缩样
本集合; 将 压缩样本集合输入到预先构建的掩码
语言模型进行训练, 输出得到意图识别结果, 该
掩码语言模型用于将输入的压缩样本填充到待
训练的语言提示模板中预设位置后进行训练。 本
申请提供的实施例通过对训练样本进行统一的
预处理改造, 有效地提升了掩码语 言模型的收敛
速度。
权利要求书3页 说明书17页 附图3页
CN 114706943 A
2022.07.05
CN 114706943 A
1.一种意图识别的方法, 其特 征在于, 该 方法包括:
获取训练样本集合, 所述训练样本集合包括多个训练样本, 每个所述训练样本为抽象
化意图的字符组合, 所述训练样本 至少包括有序排列的关注字符;
在去重后的所述训练样本集合的总字符数量大于或等于第 一阈值时, 根据字符出现次
数对每个所述训练样本进行压缩处 理, 得到压缩样本集 合;
将所述压缩样本集合输入到预先构建的掩码语言模型进行训练, 输出得到意图识别结
果, 所述掩码语言模型用于将输入的压缩样本填充到待训练的语言提示模板中预设位置后
进行训练。
2.根据权利要求1所述的方法, 其特征在于, 所述根据字符出现次数对每个所述训练样
本进行压缩处 理, 得到压缩样本集 合, 包括:
获取与所述训练样本集合对应的字频列表, 所述字频列表包括所述训练样本集合包含
的关注字符和每 个所述关注字符在所述训练样本集 合中的出现次数;
对所述训练样本集合中的每个所述训练样本分别进行字符去重处理, 得到去重样本集
合, 所述去重样本集 合包括多个去重样本, 所述去重样本与所述训练样本一 一对应;
根据所述字频列表对所述去重样本集合中的每个所述去重样本分别进行压缩处理, 得
到所述压缩样本集合, 其中, 所述压缩样本集合包括多个压缩样本, 所述压缩样本与所述去
重样本一 一对应。
3.根据权利要求2所述的方法, 其特征在于, 所述对所述训练样本集合中的每个所述训
练样本进行字符去重处 理, 得到去重样本集 合, 包括:
针对每个训练样本, 在确定所述训练样本包含非关注字符时, 用预设字符对所述非关
注字符进行替换, 得到与所述训练样本对应的替换样本;
对与所述训练样本对应的替换样本进行字符去重处理, 得到与 所述替换样本对应的去
重样本;
将与所述 替换样本对应的去重样本添加至所述去重样本集 合中;
在确定所述训练样本不包含非关注字符时, 对所述训练样本进行字符去重处理, 得到
与所述训练样本对应的去重样本;
将与所述训练样本对应的去重样本添加至所述去重样本集 合中。
4.根据权利要求2所述的方法, 其特征在于, 所述根据所述字频列表对所述去重样本集
合中的每 个所述去重样本分别进行压缩处 理, 得到所述压缩样本集 合, 包括:
针对每个所述去重样本, 确定所述去重样本的字符长度;
在所述字符长度大于或等于第二阈值时, 根据所述字频列表对所述去重样本进行筛
选, 得到与所述去重样本对应的筛 选样本;
对与所述去重样本对应的筛选样本进行压缩处理, 得到与所述筛选样本对应的压缩样
本;
将与所述筛 选样本对应的压缩样本添加至所述压缩样本集 合中。
5.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括:
针对每个所述去重样本, 在所述字符长度小于第二阈值时, 将所述去重样本确定为压
缩样本。
6.根据权利要求4所述的方法, 其特征在于, 所述根据所述字频列表对所述去重样本进权 利 要 求 书 1/3 页
2
CN 114706943 A
2行筛选, 得到与所述去重样本对应的筛 选样本, 包括:
按照所述字频列表 的排列顺序, 从所述字频列表的首个关注字符开始, 确定候选字符
集合, 所述候选字符集合包括连续的第一阈值个数的关注字符, 其中, 所述字频列 表是按照
关注字符在所述训练样本集 合中出现次数从高到低的顺序进行排序的;
根据所述候选字符集合对所述去重样本包含的关注字符进行筛选, 得到与 所述去重样
本对应的筛 选样本。
7.根据权利要求4所述的方法, 其特征在于, 所述对与 所述去重样本对应的筛选样本进
行压缩处 理, 得到与所述筛 选样本对应的压缩样本, 包括:
利用截取窗口对所述筛选样本进行滑窗处理, 得到与所述筛选样本对应的截取样本,
其中, 所述截取窗口的大小为所述第二阈值, 所述截取滑 窗每次滑动的步长为预设个数 的
字符, 每个所述截取样本包括所述第二阈值个数的字符;
在确定所述截取样本属于所述压缩样本集合已包含的压缩样本时, 按照所述步长滑动
所述截取窗口, 返回所述利用截取窗口对所述筛选样本进行滑 窗处理, 得到与所述筛选样
本对应的截取样本的步骤, 直至确定所述截取样本不属于所述压缩样本集合已包含的压缩
样本为止;
在确定所述截取样本不属于所述压缩样本集合已包含的压缩样本时, 确定所述截取样
本为与所述筛 选样本对应的压缩样本 。
8.根据权利要求7所述的方法, 其特征在于, 所述利用截取窗口对所述筛选样本进行滑
窗处理, 得到与所述筛 选样本对应的截取样本, 包括:
在确定与所述截取窗口对应的所述筛选样本包含的字符个数小于所述截取窗口的大
小时, 则按照所述筛选样本的字符排列顺序, 在与所述截取窗口对应的所述筛选样本包含
的字符的末 尾处设置差值个数的补 全字符, 提取所述与所述截取窗口对应的所述筛选样本
包含的字符和设置的补 全字符作为与所述筛选样本对应的截取样本, 所述差值个数是由所
述截取窗口的大小与所述截取窗口对应的筛选样本中待截取的字符个数之间的差值确定
的;
在确定与所述截取窗口对应的所述筛选样本包含的字符个数大于或等于所述截取窗
口的大小时, 则按照所述筛选样本的字符排列顺序, 从所述筛选样本中提取与所述截取窗
口对应的字符作为所述与所述筛 选样本对应的截取样本 。
9.根据权利要求2 ‑6任一项所述的方法, 其特征在于, 若所述去重样本包含预设字符,
则将所述预设字符设置在所述去重样本的首位。
10.根据权利要求2所述的方法, 其特征在于, 所述获取与所述训练样本集合对应的字
频列表, 包括:
分别统计所述训练样本集 合中的每 个关注字符在所述训练样本集 合中的出现次数;
根据每个关注字符的出现次数, 对所述训练样本集合中的关注字符进行排序, 得到与
所述训练样本集 合对应的字频列表。
11.一种意图识别的装置, 其特 征在于, 该装置包括:
训练样本获取模块, 用于获取训练样本集合, 所述训练样本集合包括多个训练样本, 每
个所述训练样本为抽象化 意图的字符组合, 所述训练样本 至少包括有序排列的关注字符;
样本压缩处理模块, 用于在去重后的所述训练样本集合的总字符数量大于或等于第 一权 利 要 求 书 2/3 页
3
CN 114706943 A
3
专利 意图识别的方法、装置、设备和介质
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:50:33上传分享