(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210269420.4
(22)申请日 2022.03.18
(71)申请人 中国人民解 放军国防科技大 学
地址 410073 湖南省长 沙市开福区德雅路
109号
(72)发明人 肖卫东 赵翔 费军波 曾维新
谭真 徐浩 胡升泽
(74)专利代理 机构 长沙大珂知识产权代理事务
所(普通合伙) 4323 6
专利代理师 伍志祥
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06F 16/33(2019.01)
(54)发明名称
基于混合多原型的小样本命名实体识别方
法
(57)摘要
本发明公开了基于混合多原型的小样本命
名实体识别方法, 包括以下步骤: 从训练和测试
数据集中采样片段, 片段包括支持集和查询集;
对于支持集, 采用实体标签扩充序列, 以丰富句
子的语义; 使用编码器来 嵌入支持集和查询集中
的序列, 产生具有上下文信息的符号和标签嵌
入; 基于具有上下文信息的符号和标签嵌入, 生
成所有类的混合多原型表示; 根据符号与混合多
原型类表 示的距离来预测查询集中词的标签。 本
发明方法提出了一种新的多原型类表 示策略, 以
减少潜在的表 示偏差, 提高单原型方法的表达能
力; 设计了一种混合策略来构造实体类和非实体
类的多原型, 由此使得本发明识别效果非常高。
权利要求书2页 说明书5页 附图1页
CN 114676700 A
2022.06.28
CN 114676700 A
1.基于混合多原型的小样本命名实体识别方法, 其特 征在于, 包括以下步骤:
步骤1, 从训练和 测试数据集中采样片段, 片段包括支持集和查询集;
步骤2, 对于支持集, 采用实体标签扩充序列, 以丰富句子的语义;
步骤3, 使用编码器来嵌入支持集和查询集中的序列, 产生具有上下文信息的符号和标
签嵌入;
步骤4, 基于具有上 下文信息的符号和标签嵌入, 生成所有类的混合多原型表示;
步骤5, 根据符号与混合多原型类表示的距离来预测查询集中词的标签。
2.根据权利要求1所述的基于混合多原型的小样本命名实体识别方法, 其特征在于, 步
骤2中, 给定支持集(x,y), 扩充后的序列表示为: x'={x1,x2,y1,…,xn,yk}, 包括n个符号
{x1,x2,…,xn}和k个插入的标签{y1,…,yk}, 步骤3中编码器编码后的具有上下文信息的符
号和标签嵌入表示 为:
fθ(·)表示编码器,
表示嵌入。
3.根据权利要求2所述的基于混合多原型的小样本命名实体识别方法, 其特征在于, 步
骤4中所述的所有类包括实体类和非实体类, 实体类的多原型表示为c:
其中,
e表示实体, εc表示支持集中被标注为c的实体, ee表示实体级原型, 为实体e的符号{x1,
x2,…,x|e|}的具有上下文信息的嵌入的平均, le表示标签级原型, 为实体e的标签ye的具有
上下文信息的嵌入; 非实体类的多原型表示使用符号 嵌入来表 示类, 令O={x1,x2,…,xo}是
支持集中被标注为 o的符号, 则类o的多原型表示 为:
4.根据权利要求3所述的基于混合多原型的小样本命名实体识别方法, 其特征在于, 步
骤5中, 给定查询序列
和查询序列的符号嵌入
首先计算符号
属于每个类别的概率, 然后把概率最高的类别赋值给
符号
属于类c
的概率计算如下:
其中, mindis表示符号嵌入与这个类的多原型表示之间的最小距离, cj表示第j个类的
多原型。
5.根据权利要求4所述的基于混合多原型的小样本命名实体识别方法, 其特征在于, 在
训练阶段, 使用负对数似然损失来更新编码器中参数:
其中,
表示对于
预测的标签, cg表示真实标签, p表示概率计算, N表示训练数据的查
询集中的符号总数。
6.根据权利要求1所述的基于混合多原型的小样本命名实体识别方法, 其特征在于, 步
骤1中所述的采样的过程表述为: 给定一个具有M类的集合
C+是全部实体类, 数据
集D, M和数量K, 采样支持集S; 具体采样的步骤为: 对(x,y)∈D进 行随机迭代采样, 直到满足
以下条件:
被标注为c的实体数量在 [K,2K]内, 接下来, 按照以下条件删除支持集S
中的(x,y)对: 任何类的实体不会因为 从S中删除(x,y)而小于K; 最后, 当S中的(x,y)不能被权 利 要 求 书 1/2 页
2
CN 114676700 A
2删除时, 结束采样。
7.根据权利要求1所述的基于混合多原型的小样本命名实体识别方法, 其特征在于, 对
于每个类, 仅在α 个实体区间之后插 入标签, α 为预设值。
8.根据权利要求2所述的基于混合多原型的小样本命名实体识别方法, 其特征在于, 所
述的编码器为BERT编码器。权 利 要 求 书 2/2 页
3
CN 114676700 A
3
专利 基于混合多原型的小样本命名实体识别方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:36上传分享