(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221045972 2.8
(22)申请日 2022.04.28
(71)申请人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
(72)发明人 陈恩红 徐童 金日进 赵思蕊
(74)专利代理 机构 北京凯特来知识产权代理有
限公司 1 1260
专利代理师 郑立明 韩珂
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 40/20(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06K 9/62(2022.01)
(54)发明名称
人脸表情识别方法、 系统、 设备及存 储介质
(57)摘要
本发明公开了一种人脸表情识别方法、 系
统、 设备及存储介质, 通过引入Tran sformer中的
多头自注 意力结构, 能够有效解决人脸表情高的
类间相似度的问题; 通过引入人脸运动单元信
息, 能够有效解决人脸表情大的类内差异的问
题, 结合两者可提升人脸表情的识别准确率。
权利要求书2页 说明书7页 附图3页
CN 114582004 A
2022.06.03
CN 114582004 A
1.一种人脸表情识别方法, 其特 征在于, 包括:
对输入的人脸表情图像中多个局部区域进行特征提取, 获得包含所有局部区域特征的
局部表情特 征;
利用包含多层Transformer编码器的全局关系建模模块对所述局部表情特征进行长程
依赖的建模, 确定不同局部区域特 征之间的关联, 获得表情特 征;
对输入的人脸表情图像进行人脸运动单元信 息的提取, 并将提取到的人脸运动单元信
息与所述表情特 征融合, 获得融合特 征;
利用所述融合特 征进行表情识别。
2.根据权利要求1所述的一种人脸表情识别方法, 其特征在于, 所述利用包含多层
Transformer编码器的全局关系建模模块对所述局部表情特征进行长程依赖的建模, 确 定
不同局部区域特 征之间的关联, 获得表情包括:
将所述局部表情特 征进行维度变换, 再变换为序列形式, 获得局部表情特 征序列;
全局关系建模模块以所述局部表情特征序列作为输入, 在所述局部表情特征序列中添
加类别特 征, 并进行位置表征, 获得初始特 征序列, 表示 为:
其中,
表示局部表情特征序列,
表示局部表情特征序列中的第
i个特征向量,hw表示特征向量的总数; xclass表示类别特 征,Xpos表示位置表征;
所述初始特征序列作为多层Transformer编码器的输入进行长程依赖的建模, 确定不
同局部区域特 征之间的关联, 获得表情特 征。
3.根据权利要求2所述的一种人脸表情识别方法, 其特征在于, 所述多层Transformer
编码器中的每一层均包括: 一个多头 自注意力模块与多层感知机模块; 多头自注意力模块
前端设有第一层标准化单元, 多层感知机模块的前端设有第二层标准化单元; 多头自注意
力模块的后端采用残差连接将所述第一层标准化单元的输入与自身的输出相加, 作为多头
自注意力模块最终输出结果, 并输入至所述第二层标准化单元; 多层感知机模块的后端采
用残差连接将所述第二层标准化单元的输入与自身的输出相加, 作为多层感知机模块的最
终输出结果。
4.根据权利要求3所述的一种人脸表情识别方法, 其特征在于, 将所述多层
Transformer编码器的层数设为 N, 第l层的处理表示为:
zl’=MHSA(LN1(zl‑1))+ zl‑1
zl=MLP(LN2(zl’))+zl’
其中,LN1(.)与LN2(.)分别表示第一层标准化单元与第二层标准化单元执行层标准化
操作后的输出, MHSA(.)表示多头自注意力模块的输出, zl’表示第l层中多头自注意力模块
的最终输出结果; MLP(.)表示多层感知机模块的输出, zl表示第l层中多层感知机模块的最
终输出结果;l=1,…,N,N为整数, 当 l=1时,zl‑1表示所述初始特 征序列。
5.根据权利要求3或4所述的一种人脸表情识别方法, 其特征在于, 所述多头自注意力
模块中包含 H个单头自注意力模块, 每一个单头自注意力模块各自计算相应的单头注意力,
将H个单头注意力堆叠, 获得多头自注意力模块的输出, 表示 为:权 利 要 求 书 1/2 页
2
CN 114582004 A
2MHSA(X1)=Concat(SA1,SA2,…,SAH)WO
其中,SA表示单头自注意力 模块计算的单头注意力, 数字1,2, …, H均表示多头注意力
模块的序号, WO表示多头自注意力模块的权 重参数;X1表示多头自注意力模块的输入信息;
其中, 单头注意力 SA的计算过程包括:
对输入信息 X1通过不同的线性变换获得查询向量 Q、 键向量K与值向量V, 表示 为:
Q= X1WQ, K= X1WK, V= X1WV
其中, WQ、 WK、 WV表示三种线性变换的权 重参数;
根据三个向量计算单头注意力 SA, 表示为:
其中,T为转置符号, dk表示键向量K的维度中的参数。
6.根据权利要求3或4所述的一种人脸表情识别方法, 其特征在于, 所述多层感知机模
块包括两个全连接层, 通过两个全连接层对输入信息 X2进行特征映射, 表示 为:
MLP(X2)=GELU(W1X2+b1)W2+b2
其中, W1与b1分别表示第一个全连接层的权重与偏置参数, W2与b2分别表示第二个全连
接层的权 重与偏置参数; GELU(.)为非线性激活函数。
7.根据权利要求1所述的一种人脸表情识别方法, 其特征在于, 所述对输入的人脸表情
图像进行人脸运动单元信息的提取, 并将提取到的人脸运动单元信息与所述表情特征融合
包括: 选择多个人脸运动单元, 从所述输入的人脸表情图像中提取所选的所有人脸运动单
元的人脸 运动单元信息, 并映射至与所述表情特 征相同的维度, 再与所述表情特 征融合。
8.一种人脸表情识别系统, 其特征在于, 基于权利要求1~7任一项所述的方法实现, 该
系统包括:
局部特征提取模块, 用于对输入的人脸表情图像中多个局部区域进行特征提取, 获得
包含所有局部区域特 征的局部表情特 征;
全局关系建模模块, 其包含多层Transformer编码器, 用于对所述局部表情特征进行长
程依赖的建模, 确定不同局部区域特 征之间的关联, 获得表情特 征;
人脸运动单元融合模块, 用于对输入的人脸表情图像进行人脸运动单元信息的提取,
并将提取到的人脸 运动单元信息与所述表情特 征融合, 获得融合特 征;
分类识别模块, 用于利用所述融合特 征进行表情识别。
9.一种处理设备, 其特征在于, 包括: 一个或多个处理器; 存储器, 用于存储一个或多个
程序;
其中, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个
处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质, 存储有计算机程序, 其特征在于, 当计算机程序被处理器执行
时实现如权利要求1~7任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114582004 A
3
专利 人脸表情识别方法、系统、设备及存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:36:07上传分享