(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210228940.0
(22)申请日 2022.03.10
(71)申请人 延边大学
地址 133002 吉林省延边朝鲜 族自治州延
吉市公园路97 7号
(72)发明人 赵亚慧 金晶 崔荣一 金国哲
张振国 李德 李飞雨 姜克鑫
王苑儒 刘帆 夏明会 鲁雅鑫
赵晓辉
(74)专利代理 机构 北京东方盛凡知识产权代理
事务所(普通 合伙) 11562
专利代理师 李娜
(51)Int.Cl.
G06F 40/58(2020.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多粒度表征的朝汉神经机 器翻译方法
(57)摘要
本发明公开了基于多粒度表征的朝汉神经
机器翻译方法, 包括: 采集朝鲜语语料的文本数
据并进行预处理, 获得语料文本数据的多粒度序
列表示; 构建神经机器翻译模型, 基于所述神经
机器翻译模型对所述语料文本数据的多粒度序
列进行翻译, 获得目标语言译文。 本发明通过利
用源语言的语言结构信息改善机器翻译模型的
性能, 增强了朝鲜语句法和语义信息建模能力。
权利要求书1页 说明书8页 附图4页
CN 115017921 A
2022.09.06
CN 115017921 A
1.基于多粒度表征的朝汉神经机器翻译方法,其特 征在于, 包括:
采集朝鲜语 语料的文本数据并进行 预处理, 获得语料文本数据的多粒度 序列表示;
构建神经机器翻译模型, 基于所述神经机器翻译模型对所述语料文本数据的多粒度序
列进行翻译, 获得目标语言译 文。
2.根据权利要求1所述的基于多粒度表征的朝汉神经机器翻译方法, 其特 征在于,
所述预处理过程包括, 将朝鲜语语料的文本数据通过符合朝鲜语语言特征并与机器翻
译相适应的朝鲜语 语言处理单位进行多粒度划分处 理, 获得多粒度 序列表示。
3.根据权利要求2所述的基于多粒度表征的朝汉神经机器翻译方法, 其特 征在于,
通过符合朝鲜语语言特征并与机器翻译相适应的朝鲜语语言处理单位进行多粒度划
分处理包括, 基于朝鲜语文本的词根词缀构词法设计子语节与子词 素粒度处理单位, 结合
字粒度处 理方法, 获得音节粒度 序列。
4.根据权利要求3所述的基于多粒度表征的朝汉神经机器翻译方法, 其特 征在于,
所述子语节与子词素 粒度处理单位进行处 理的过程包括,
子语节粒度中采用WordPiece子词词表构造算法, 选择子词对合并后导致计算整个训
练数据似然率 最高的子词对进行合并, 获得子语节粒度 序列;
子词素粒度采用WordPiece与朝鲜语形态素分析相结合的方法, 获得token序列; 根据
WordPiece计算得到似然率最高的合并子词对后, 使用KoNLPy形态素分析器分析句子中形
态素与词性信息, 对符合朝鲜语 语法结构to ken进行合并与切分, 获得子词素 粒度序列。
5.根据权利要求1所述的基于多粒度表征的朝汉神经机器翻译方法, 其特 征在于,
基于所述神经机器翻译模型对所述语料文本数据的多粒度 序列进行翻译之前还 包括,
根据所述多粒度序列表示获得句子表示向量, 通过多头多粒度注意力结构提取句子特
征, 获得多粒度句子特 征;
基于粒度感知掩码方法对所述多粒度句子特 征进行动态掩码。
6.根据权利要求5所述的基于多粒度表征的朝汉神经机器翻译方法, 其特 征在于,
基于粒度感知掩码方法对所述多粒度句子特征进行动态掩码为, 将子语节粒度序列和
音节粒度序列两个不同粒度序列中的相同标记信息进 行掩码, 使得注意力机制更加关注序
列间不同粒度切分后的语义信息 。
7.根据权利要求1所述的基于多粒度表征的朝汉神经机器翻译方法, 其特 征在于,
基于所述神经机器翻译模型对所述语料文本数据的多粒度序列进行翻译还包括, 对所
述语料文本数据的多 粒度序列进 行翻译至基于多 粒度表征的神经机器翻译模型收敛, 获得
目标语言译 文。权 利 要 求 书 1/1 页
2
CN 115017921 A
2基于多粒度表征的朝汉神经机 器翻译方 法
技术领域
[0001]本发明属于自然语言处理机器翻译领域, 特别是涉及基于多粒度表征的朝汉神经
机器翻译方法。
背景技术
[0002]机器翻译任务是指利用计算机自动地将源语言翻译到与其语义相对应的目标语
言的过程, 是自然语言处理领域的重要研究方向之一。 机器翻译在一些对译文质量要求不
高的场景下, 或者是在特定领域翻译任务上, 其翻译速度和性能具有明显优势, 得到了广泛
应用。 鉴于机器翻译的复杂性和适用性, 自然语言处理领域将该任务视为一个重要研究方
向, 并且机器翻译已成为该 领域最活跃的研究课题之一。
[0003]机器翻译方法主要包括基于规则的方法、 基于统计的方法和基于神经网络的方
法。 其中神经机器翻译模型被首次提出后, 大量基于编 码器‑解码器结构的神经机器翻译模
型就不断涌现, 翻译性能与速度也不断被刷新。 随深度学习等机器学习技术的不断成熟, 神
经机器翻译模型由于其优越的性能和无需过多人工干预等特点备 受学者关注。 尽管神经机
器翻译模型在性能方面已远远超越了传统机器翻译模型, 但其未来 发展仍旧具有强大发展
潜力。
[0004]朝鲜语是我国朝鲜族的官方语言, 朝鲜族是我国24个拥有自己语言的少数民族之
一。 研究朝汉翻译有利于促进民族文化交流, 也有利于朝鲜族民族文化的传播、 保留和发
展, 提供科学的文化依据。 国内针对少数民族语言的机器翻译研究, 主要集中在蒙古语、 藏
语、 维吾尔语等几种少数民族语言中, 对于中朝神经机器翻译的研究几乎空白。
[0005]朝鲜语属于低资源语言, 对于朝鲜语的相关研究因其语料资源匮乏、 语言自身特
点等原因进展缓慢, 其语料规模、 领域、 质量等因素都极大限制了中朝机器翻译研究的开
展。 此外, 朝鲜语属于黏着语, 由附加成分拼接在词根上构成丰富的形态变化, 并且双语资
源相对匮乏, 无法较好 地训练巨大的模型, 存在翻译 译文不忠实的情况。
发明内容
[0006]本发明使用语言学中的先验结构知识指导语言模型, 得到更好的注意力分布。 通
过将朝鲜语自身丰富的形态变化改进模 型中学习不充分的部 分, 通过不同的tokenization
使得模型具备从不同子空间捕捉信息的能力, 鼓励模型 的多样性, 避免由于固定的输入粒
度导致模型在解码过程中利用率差的问题, 同时消除模型中数据可用性有限的问题。
[0007]为解决上述问题, 本发明提供了如下方案: 基于多粒度表征的朝汉神经机器翻译
方法, 包括:
[0008]采集朝鲜语语料的文本数据并进行预处理, 获得语料文本数据的多粒度序列表
示;
[0009]构建神经机器翻译模型, 基于所述神经机器翻译模型对所述语料文本数据的多粒
度序列进行翻译, 获得目标语言译 文。说 明 书 1/8 页
3
CN 115017921 A
3
专利 基于多粒度表征的朝汉神经机器翻译方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:14上传分享