(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210483111.7
(22)申请日 2022.05.06
(65)同一申请的已公布的文献号
申请公布号 CN 114580425 A
(43)申请公布日 2022.06.03
(73)专利权人 阿里巴巴 (中国) 有限公司
地址 311121 浙江省杭州市余杭区五常街
道文一西路969号3幢5层5 54室
(72)发明人 王续武 严明 田俊峰
(74)专利代理 机构 北京开阳星知识产权代理有
限公司 1 1710
专利代理师 安伟
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
(56)对比文件
CN 113435203 A,2021.09.24CN 111046668 A,2020.04.21
CN 112733533 A,2021.04.3 0
EP 3812926 A1,2021.04.28
WO 2021135193 A1,2021.07.08
CN 113128494 A,2021.07.16
US 2020134398 A1,2020.04.3 0
US 202101 1941 A1,2021.01.14
US 2021216862 A1,2021.07.15
田等.一种基 于多模态主题模型的图像自动
标注方法. 《国外电子测量 技术》 .2015,(第0 5
期),
Xuwu Wang 等.PromptMNER: Prompt-Based
Entity-Related Visual Clue Extracti on and
Integrati on for Multimodal Named Entity
Recognition. 《Database System s for
Advanced Ap plications》 .2022,第297-305页.
审查员 闪赛
(54)发明名称
命名实体识别的方法和装置, 以及电子设备
和存储介质
(57)摘要
本公开涉及一种命名实体识别的方法和装
置, 以及电子设备和存储介质。 其中, 多模态信息
包括待识别文本和关联图像, 在 多模态信息中进
行命名实体识别的方法包括: 基于设定的提示词
和关联图像获取提示词语义空间的第一视觉线
索向量; 对第一视觉线索向量进行向量空间变
换, 得到文本语义空间的第二视觉线索向量; 随
后基于转换后的第二视觉线索向量和待识别文
本的文本向量, 对待识别文本进行命名实体识
别。 本公开提供的方法, 可 以从关联图像中准确
的抽取出重要的视觉线索向量, 最大限度减少无
关噪声的引入, 并将抽取到的视觉线索向量转换
到文本语义空间中, 减少了语义差异, 有效提高
了基于文本向量和视觉线索向量进行命名实体
识别的效果。
权利要求书3页 说明书15页 附图5页
CN 114580425 B
2022.09.09
CN 114580425 B
1.一种在多模态信息中进行命名实体识别的方法, 其特征在于, 所述多模态信息包括
待识别文本和关联图像, 所述方法包括:
基于设定的提 示词和所述关联图像获取提 示词语义空间的第一视 觉线索向量;
利用线性编码器对所述第 一视觉线索向量进行向量空间变换, 得到文本语义空间的第
二视觉线索向量;
利用所述线性编码器对应的线性解码器对所述第 二视觉线索向量进行解码处理, 得到
文本语义空间的第三视 觉线索向量;
基于所述第三视觉线索向量和所述第一视觉线索向量对所述线性编码器进行参数调
整;
利用参数调 整后的线性编码器对所述第 一视觉线索向量进行向量空间变换, 得到第 二
视觉线索向量;
基于所述第 二视觉线索向量和所述待识别文本的文本向量, 对所述待识别文本进行命
名实体识别。
2.根据权利要求1所述的方法, 其特征在于, 所述基于设定的提示词和所述关联图像获
取提示词语义空间的第一视 觉线索向量, 包括:
获取提示词向量, 所述 提示词向量与所述 提示词对应;
对所述关联图像进行向量 提取, 获得对应的图像向量;
获取所述图像向量与每 个提示词向量的关联性系数;
将所述关联性系数叠加到所述提示词向量上, 获得提示词语义空间的所述第 一视觉线
索向量。
3.根据权利要求2所述的方法, 其特 征在于, 所述获取提 示词向量, 包括:
获取至少一个离 散的提示词和/或连续的提 示词语义向量;
基于所述至少一个离散的提示词和/或连续的提示词语义向量进行向量提取, 以获取
所述提示词向量。
4.根据权利要求1所述的方法, 其特征在于, 所述基于所述第 二视觉线索向量和所述待
识别文本的文本向量, 对所述待识别文本进行命名实体识别, 包括:
获取与所述文本向量对应的第 一位置向量和第 一分段向量, 以及与 所述第二视觉线索
向量对应的第二 位置向量和第二分段向量;
将所述文本向量、 所述第一分段向量和所述第一位置向量相加得到第一文本输入向
量, 并将所述第二视觉线索向量、 所述第二分段向量和所述第二位置 向量相加得到第二文
本输入向量;
利用模态区分的注意力层对所述第一文本输入向量和所述第二文本输入向量进行信
息融合处 理, 得到信息融合向量;
基于所述信息融合向量进行命名实体识别, 得到命名实体识别结果。
5.根据权利要求4所述的方法, 其特征在于, 所述模态区分的注意力层包括第 一注意力
层和第二注意力层; 所述利用模态区分的注意力层 对所述第一文本输入向量和所述第二文
本输入向量进行信息融合处 理, 得到信息融合向量, 包括:
基于作为查询向量的所述第 一文本输入向量, 利用所述第 一注意力层将所述第 一文本
输入向量和所述第二文本 输入向量进行信息融合, 生成融合后的第一文本 输入向量;权 利 要 求 书 1/3 页
2
CN 114580425 B
2基于作为查询向量的所述第 二文本输入向量, 利用所述第 二注意力层将所述第 一文本
输入向量和所述第二文本 输入向量进行信息融合, 生成融合后的第二文本 输入向量;
其中, 所述信 息融合向量包括所述融合后的第 一文本输入向量和所述融合后的第 二文
本输入向量。
6.根据权利要求5所述的方法, 其特征在于, 所述第 一注意力层包括第 一注意力 子层和
第二注意力子层; 所述基于作为查询向量的所述第一文本输入向量, 利用所述第一注意力
层将所述第一文本输入向量和所述第二文本输入向量进行信息融合, 生成 融合后的第一文
本输入向量, 包括:
根据所述第 一文本输入向量和设定的第 一参数确定第 一查询向量; 基于所述第 一注意
力子层, 计算所述第一查询向量和所述第一文本输入向量的相关性生成第一相关性参数,
并根据所述第一相关性 参数和所述第一文本 输入向量 生成第一融合向量;
根据所述第 一文本输入向量和设定的第 二参数确定第 二查询向量; 基于所述第 二注意
力子层, 计算所述第二查询向量和所述第二文本输入向量的相关性生成第二相关性参数,
并根据所述第二相关性 参数和所述第二文本 输入向量 生成第二融合向量;
将所述第一融合向量、 所述第二融合向量和所述第一文本输入向量进行求和, 生成融
合后的第一文本 输入向量。
7.根据权利要求5所述的方法, 其特征在于, 所述第 二注意力层包括第 三注意力 子层和
第四注意力子层; 所述基于作为查询向量的所述第二文本输入向量, 利用所述第二注意力
层将所述第一文本输入向量和所述第二文本输入向量进行信息融合, 生成 融合后的第二文
本输入向量, 包括:
根据所述第 二文本输入向量和设定的第 三参数确定第 三查询向量; 基于所述第 三注意
力子层, 计算所述第三查询向量和所述第一文本输入向量的相关性生成第三相关性参数,
并根据所述第三相关性 参数和所述第一文本 输入向量 生成第三融合向量;
根据所述第 二文本输入向量和设定的第四参数确定第四查询向量; 基于所述第四注意
力子层, 计算所述第四查询向量和所述第二文本输入向量的相关性生成第四相关性参数,
并根据所述第四相关性 参数和所述第二文本 输入向量 生成第四融合向量;
将所述第三融合向量、 所述第 四融合向量和所述第二文本输入向量进行求和, 生成融
合后的第二文本 输入向量。
8.一种主题构建方法, 其特 征在于, 包括:
获取多模态信息;
基于所述多模态信 息, 采用上述权利要求1至权利要求7中任一所述的方法得到命名实
体识别结果;
基于所述命名实体识别结果构建主题。
9.一种在多模态信息中进行命名实体识别的装置, 其特征在于, 所述多模态信息包括
待识别文本和关联图像, 所述装置包括:
获取单元, 用于基于设定的提示词和所述关联图像获取提示词语义空间的第 一视觉线
索向量;
变换单元, 用于利用线性编码器对所述第一视觉线索 向量进行向量空间变换, 得到文
本语义空间的第二视觉线索向量; 利用所述线性编 码器对应的线性解码 器对所述第二视觉权 利 要 求 书 2/3 页
3
CN 114580425 B
3
专利 命名实体识别的方法和装置,以及电子设备和存储介质
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:25上传分享