专利 一种人机交互方法、装置及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210296215.7 (22)申请日 2022.03.24 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人王昊天　吴晓烽　王维强　 (74)专利代理机构北京国昊天诚知识产权代理有限公司 1 1315 专利代理师张敏 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/583(2019.01) G06V 10/80(2022.01) G06V 10/774(2022.01)G06K 9/62(2022.01) G06T 11/60(2006.01) (54)发明名称一种人机交互方法、装置及设备 (57)摘要本说明书实施例公开了一种人机交互方法、装置及设备，该方法包括：获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息，如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到，可以将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。权利要求书3页说明书16页附图8页 CN 114637833 A 2022.06.17 CN 114637833 A 1.一种人机交互方法，所述方法包括：获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息；如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到；将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。 2.根据权利要求1所述的方法，所述方法还包括：获取预先存储的交互日志，所述交互日志包括文本信息、第二表情图像和所述第二表情图像的表情主题信息；基于所述交互日志中的文本信息和所述第二表情图像的表情主题信息对所述对话模型进行模型训练，得到训练后的对话模型。 3.根据权利要求1所述的方法，所述方法还包括：获取包含表情图像的训练图像；对所述训练图像中包含的字符进行识别，得到所述训练图像中包含的字符信息；基于所述包含表情图像的训练图像和所述训练图像中包含的字符信息，对所述多模态预训练模型进行模型训练，得到训练后的多模态预训练模型。 4.根据权利要求3所述的方法，所述方法还包括：获取待处理的第三表情图像；对所述第三表情图像中包含的字符进行识别，得到所述第三表情图像中包含的字符信息；将所述第三表情图像和所述第三表情图像中包含的字符信息输入到所述多模态预训练模型中，得到所述第三表情图像对应的第二表情主题信息；将所述第二表情主题信息与所述第三表情图像对应存储于所述表情图像与表情主题信息的对应关系中。 5.根据权利要求 4所述的方法，所述方法还包括：接收对所述对应关系的修改请求，所述修改请求中包括所述第三表情图像的图像标识和第四表情图像；基于所述图像标识，从所述表情图像与表情主题信息的对应关系中获取所述图像标识对应的所述第三表情图像；将所述第三表情图像从所述对应关系中删除，并将所述第四表情图像与所述第二表情主题信息对应存储于所述对应关系中。 6.根据权利要求4所述的方法，所述将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户，包括：将所述回复信息和所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。 7.根据权利要求 4所述的方法，所述方法还包括：权　利　要　求　书 1/3 页 2 CN 114637833 A 2对所述回复信息进行分词处理，得到所述回复信息中包含的一个或多个分词；分别将每个所述分词与预先建立的表情图像与表情主题信息的对应关系中的表情主题信息进行匹配，确定所述表情图像与表情主题信息的对应关系中存在的所述分词；将确定的所述分词对应的表情主题信息确定为与所述回复信息相匹配的第一表情主题信息；所述将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户，包括：使用所述第一表情主题信息对应的表情图像分别替换所述回复信息中相应的所述分词，得到替换后的回复信息，将所述替换后的回复信息作为对所述输入信息的回复提供给所述目标用户。 8.一种人机交互装置，所述装置包括：回复信息获取模块，获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息；表情确定模块，如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到；表情回复模块，将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。 9.一种人机交互设备，所述人机交互设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息；如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到；将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。 10.一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令在被处理器执行时实现以下流程：获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息；如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训权　利　要　求　书 2/3 页 3 CN 114637833 A 3

专利 一种人机交互方法、装置及设备

专利一种人机交互方法、装置及设备