(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210397055.5
(22)申请日 2022.04.15
(71)申请人 合肥工业大 学
地址 230009 安徽省合肥市包河区屯溪路
193号
(72)发明人 李泽中 任福继 孙晓
(74)专利代理 机构 北京久诚知识产权代理事务
所(特殊普通 合伙) 11542
专利代理师 王云海
(51)Int.Cl.
G06F 40/189(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
中日词语自动对齐方法和系统
(57)摘要
本发明提供一种中日词语自动对齐方法、 系
统、 存储介质和电子设备, 涉及语言翻译处理技
术领域。 本发明中, 省略计算子词对齐过程, 计算
二次切分获取的第二子词序列中, 任意中文子词
和日语子词的上下文表示向量之间的语义相似
度, 构建子词相似度矩阵; 根据子词相似度矩阵,
获取任意一对双语词之间的词对齐 分数, 确定原
始平行语料的对齐 关系。 直接从子词相似度矩阵
计算出双语 之间的词对齐分数, 更充分地利用子
词相似度矩阵所包含的信息, 得到更精准和健壮
的词对齐结果。
权利要求书3页 说明书10页 附图2页
CN 114896959 A
2022.08.12
CN 114896959 A
1.一种中日词语自动对齐方法, 其特 征在于, 包括:
将原始平行语料进行词语切分, 获取词序列;
将原始平行语料进行子词切分, 获取第一子词序列;
加载预训练好的mBert模型在切分子词后的平行语料上进行参数微调, 获取所述第一
子词序列中的每一个中文子词、 每一个日语子词的上 下文表示向量;
进一步切分所述第一子词序列, 获取第二子词序列, 所述第二子词序列中每一个子词
只隶属于所述词 序列中的单个词语, 且二次切分获取的子词复制对应的一次切分获取的子
词的上下文向量;
计算所述第二子词序列中任意中文子词和日语子词的上下文表示向量之间的语义相
似度, 构建子词相似度矩阵;
根据所述子词相似度矩阵, 获取任意一对双语词之间的词对齐分数, 确定原始平行语
料的对齐关系。
2.如权利要求1所述的中日词语自动对齐方法, 其特征在于, 所述mBert模型在预训练
过程的目标函数L表示如下:
L=LMLM+LTLM+λLCC
其中, LMLM表示基于掩码语言模型的子目标函数:
LMLM=‑logp(E|Emask)‑logp(F|Fmask)
Emask表示中文句子 E掩码掉若干 子词之后的子词序列;
Fmask为日文句子F掩码掉若干 子词之后的子词序列;
p(E|Emask)表示Emask还原为原 始句子E的概率;
p(F|Fmask)表示Fmask还原为原 始句子F的概 率;
LTLM表示基于翻译语言模型的子目标函数:
LTLM=‑logp([E; F]|[Emask; Fmask])‑logp([F; E]|[Fmask; Emask])
[E; F]、 [F; E]均表示句对拼接为 一个句子, 对应不同的拼接顺序;
LCC表示基于共同汉字监 督信号的子目标函数:
i,j分别为满足中文子词ei和日语子词fj为共同汉字的所有双语词对的下 标;
表示的ei在mBERT模型中第k层的上 下文表示向量;
表示的fj在mBERT模型中第k层的上 下文表示向量;
λ表示权 重。
3.如权利要求2所述的中日词语自动对齐方法, 其特 征在于,
所述中文子词ei和日语子词fj为共同汉字的判断原则包括: 两者字形完全等同, 或者作
为健值对存在于预先构建的同源汉字映射字典中; 所述同源汉字映射字典中, 健为日文汉
字, 值为中文汉字, 且将中日汉字之间一对一、 一对多或者多对一的映射关系均拆 分为一对
一的映射关系。
4.如权利要求1~3任一项所述的中日词语自动对齐方法, 其特征在于, 所述根据所述权 利 要 求 书 1/3 页
2
CN 114896959 A
2子词相似度 矩阵, 获取任意一对双语词之间的词对齐 分数, 确定原始平行语料的对齐关系,
具体包括:
S61、 根据所述子词相似度矩阵, 获取内部概 率和外部概率;
其中, 定义中文词Ei由下标[i1,i2]范围内的子词序列组成, 日语词Fj由下标[j1,j2]范
围内的子词序列组成;
in(i1,i2,j1,j2)表示所述子词相似度矩阵的内部区域, out(i1,i2,j1,j2)表示所述子词
相似度矩阵的外 部区域;
α(i1,i2,j1,j2)记作内部概率, 这个值越大表示中文词Ei和日语词Fj的互译概率越大,
反之则越小;
β(i1,i2,j1,j2)记作外部概率, 这个值越大表示中文词Ei和除Fj外的其他日语词, 或者
除Ei外的其他中文词和日语词Fj的互译概 率越小, 反 之则越大;
S62、 根据所述内部概 率和外部概率, 获取任意 一对双语词之间的词对齐分数;
Pij=α(i1,i2,j1,j2)β(i1,i2,j1,j2)
词对齐分数矩阵中的元 素Pij表示中文词Ei和日语词Fj之间的次相似度;
S63、 将所述词对齐分数Pij与预设阈值P ′进行比较, 若Pij≥P′, 则视为对应的中文词Ei
和日语词Fj之间存在对齐关系, 最终确定原 始平行语料的对齐关系。
5.如权利要求3所述的中日词语自动对齐方法, 其特征在于, 所述将原始平行语料进行
子词切分的切分原则包括: 中、 日文中的所有汉字均独自成为一个子词, 其余连续字 符串采
用Wordpiece算法进行子词切分。
6.一种中日词语自动对齐系统, 其特 征在于, 包括:
词序列获取模块, 用于将原 始平行语料进行词语切分, 获取词序列;
第一子词获取模块, 用于将原 始平行语料进行子词切分, 获取第一子词序列;
向量获取模块, 用于加载预训练好的mBert模型在切分子词后的平行语料上进行参数
微调, 获取 所述第一子词序列中的每一个中文子词、 每一个日语子词的上 下文表示向量;
第二子词获取模块, 用于进一步切分所述第一子词序列, 获取第二子词序列, 所述第二
子词序列中每一个子词只隶属于所述词 序列中的单个词语, 且二次切分获取的子词复制对
应的一次切分获取的子词的上 下文向量;
相似度计算模块, 用于计算所述第 二子词序列中任意中文子词和日语子词的上下文表
示向量之间的语义相似度, 构建子词相似度矩阵;
对齐关系确定模块, 用于根据所述子词相似度矩阵, 获取任意一对双语词之间的词对
齐分数, 确定原 始平行语料的对齐关系。
7.一种存储介质, 其特征在于, 其存储有用于中日词语自动对齐的计算机程序, 其中,
所述计算机程序使得计算机执 行如权利要求1~5任一项所述的中日词语自动对齐方法。
8.一种电子设备, 其特 征在于, 包括:权 利 要 求 书 2/3 页
3
CN 114896959 A
3
专利 中日词语自动对齐方法和系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:57上传分享