(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210296215.7
(22)申请日 2022.03.24
(71)申请人 支付宝 (杭州) 信息技 术有限公司
地址 310000 浙江省杭州市西湖区西溪路
556号8层B段801-1 1
(72)发明人 王昊天 吴晓烽 王维强
(74)专利代理 机构 北京国昊天诚知识产权代理
有限公司 1 1315
专利代理师 张敏
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/33(2019.01)
G06F 16/583(2019.01)
G06V 10/80(2022.01)
G06V 10/774(2022.01)G06K 9/62(2022.01)
G06T 11/60(2006.01)
(54)发明名称
一种人机交 互方法、 装置及设备
(57)摘要
本说明书实施例公开了一种人机交互方法、
装置及设备, 该方法包括: 获取预先训练的对话
模型针对目标用户的输入信息而输出的回复信
息, 如果预先建立的表情图像与表情主题信息的
对应关系中存在与所述回复信息相 匹配的第一
表情主题信息, 则获取所述第一表情主题信息对
应的表情图像, 所述对应关系中的表情主体信息
是通过预先训练的多模态预训练模型对表情图
像和所述表情图像中包含的字符信息进行识别
得到, 所述多模态预训练模型是通过包含表情图
像的训练图像和所述训练图像中包含的字符信
息进行模型训练得到, 可以将所述第一表情主题
信息对应的表情图像作为对所述输入信息的回
复提供给所述目标用户。
权利要求书3页 说明书16页 附图8页
CN 114637833 A
2022.06.17
CN 114637833 A
1.一种人机交 互方法, 所述方法包括:
获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息;
如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配
的第一表情主题信息, 则获取所述第一表情主题信息对应的表情图像, 所述对应关系中的
表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的
字符信息进行识别得到, 所述多模态预训练模型是通过包含表情图像的训练图像和所述训
练图像中包 含的字符信息进行模型训练得到;
将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目
标用户。
2.根据权利要求1所述的方法, 所述方法还 包括:
获取预先存储的交互日志, 所述交互日志包括文本信息、 第二表情图像和所述第二表
情图像的表情主题信息;
基于所述交互日志中的文本信息和所述第二表情图像的表情主题信息对所述对话模
型进行模型训练, 得到训练后的对话模型。
3.根据权利要求1所述的方法, 所述方法还 包括:
获取包含表情图像的训练图像;
对所述训练图像中包 含的字符进行识别, 得到所述训练图像中包 含的字符信息;
基于所述包含表情图像的训练图像和所述训练图像中包含的字符信 息, 对所述多模态
预训练模型进行模型训练, 得到训练后的多模态预训练模型。
4.根据权利要求3所述的方法, 所述方法还 包括:
获取待处 理的第三表情图像;
对所述第三表情图像中包含的字符进行识别, 得到所述第 三表情图像中包含的字符信
息;
将所述第三表情图像和所述第三表情图像中包含的字符信息输入到所述多模态预训
练模型中, 得到所述第三表情图像对应的第二表情主题信息;
将所述第二表情主题信息与所述第三表情图像对应存储于所述表情图像与表情主题
信息的对应关系中。
5.根据权利要求 4所述的方法, 所述方法还 包括:
接收对所述对应关系的修改请求, 所述修改请求中包括所述第 三表情图像的图像标识
和第四表情图像;
基于所述图像标识, 从所述表情图像与表情主题信 息的对应关系中获取所述图像标识
对应的所述第三表情图像;
将所述第三表情图像从所述对应关系中删除, 并将所述第四表情图像与所述第 二表情
主题信息对应存 储于所述对应关系中。
6.根据权利要求4所述的方法, 所述将所述第一表情主题信息对应的表情图像作为对
所述输入信息的回复提供 给所述目标用户, 包括:
将所述回复信息和所述第一表情主题信息对应的表情图像作为对所述输入信息的回
复提供给所述目标用户。
7.根据权利要求 4所述的方法, 所述方法还 包括:权 利 要 求 书 1/3 页
2
CN 114637833 A
2对所述回复信息进行分词处 理, 得到所述回复信息中包 含的一个或多个分词;
分别将每个所述分词与预先建立的表情图像与表情主题信息的对应关系中的表情主
题信息进行匹配, 确定所述表情图像与表情主题信息的对应关系中存在的所述分词;
将确定的所述分词对应的表情主题信息确定为与所述回复信息相匹配的第一表情主
题信息;
所述将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所
述目标用户, 包括:
使用所述第一表情主题信息对应的表情图像分别替换所述回复信息中相应的所述分
词, 得到替换后的回复信息, 将所述替换后的回复信息作为对所述输入信息的回复提供给
所述目标用户。
8.一种人机交 互装置, 所述装置包括:
回复信息获取模块, 获取预先训练 的对话模型针对目标用户的输入信 息而输出的回复
信息;
表情确定模块, 如果预先建立的表情图像与表情主题信 息的对应关系中存在与所述 回
复信息相匹配的第一表情主题信息, 则获取所述第一表情主题信息对应的表情图像, 所述
对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情
图像中包含的字符信息进 行识别得到, 所述多模态预训练模型是通过包含表情图像的训练
图像和所述训练图像中包 含的字符信息进行模型训练得到;
表情回复模块, 将所述第 一表情主题信 息对应的表情图像作为对所述输入信 息的回复
提供给所述目标用户。
9.一种人机交 互设备, 所述人机交 互设备包括:
处理器; 以及
被安排成存储计算机可执行指令的存储器, 所述可执行指令在被执行时使所述处理
器:
获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息;
如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配
的第一表情主题信息, 则获取所述第一表情主题信息对应的表情图像, 所述对应关系中的
表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的
字符信息进行识别得到, 所述多模态预训练模型是通过包含表情图像的训练图像和所述训
练图像中包 含的字符信息进行模型训练得到;
将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目
标用户。
10.一种存储介质, 所述存储介质用于存储计算机可执行指令, 所述可执行指令在被处
理器执行时实现以下流 程:
获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息;
如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配
的第一表情主题信息, 则获取所述第一表情主题信息对应的表情图像, 所述对应关系中的
表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的
字符信息进行识别得到, 所述多模态预训练模型是通过包含表情图像的训练图像和所述训权 利 要 求 书 2/3 页
3
CN 114637833 A
3
专利 一种人机交互方法、装置及设备
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:31:44上传分享