(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210264804.7
(22)申请日 2022.03.17
(71)申请人 邢台职业 技术学院
地址 054000 河北省邢台市信都区泉南西
大街473号
(72)发明人 加鹏飞
(74)专利代理 机构 厦门原创专利事务所(普通
合伙) 35101
专利代理师 高巍
(51)Int.Cl.
G10L 15/00(2013.01)
G10L 15/01(2013.01)
G10L 15/06(2013.01)
G10L 15/26(2006.01)
G10L 21/0316(2013.01)G06F 40/253(2020.01)
G06F 40/30(2020.01)
(54)发明名称
多语言混合语音识别方法及其应用
(57)摘要
本发明涉及语音识别领域, 具体为一种多语
言混合语音识别方法, 包括: S1: 获取用户声音信
息, 并生成语音信息; S2: 将语音信息输入到混合
语音模型中, 通过混合语音模型将语音信息识别
成若干个字词序列; S3: 将若干个字词序列分别
输入到对应的语言识别模型中得到各语言识别
模型得分, 将得分最高的识别结果进行输出; 本
发明提供的多语言混合语音识别方法结合不同
语言环境下的语 法、 语义对用户的语音信息进行
识别, 大大提升了语音识别结果的准确性。 此外,
本发明通过背景音调整消除方式, 有效避免了语
音识别过程中环境音对识别结果造成的影响, 使
识别结果更加准确, 适宜进一 步推广应用。
权利要求书1页 说明书4页 附图1页
CN 114627853 A
2022.06.14
CN 114627853 A
1.一种多语言 混合语音识别方法, 其特 征在于, 包括:
S1: 获取用户声 音信息, 并生成语音信息;
S2: 将语音信息输入到混合语音模型中, 通过混合语音模型将语音信息识别成若干个
字词序列;
S3: 将若干个字词序列分别输入到对应的语言识别模型中得到各语言识别模型得分,
将得分最高的识别结果进行输出。
2.根据权利要求1所述的一种 多语言混合语音识别方法, 其特征在于, S1具体包括如下
步骤:
S1.1: 分别获取背景环境端 声音及用户语音 端声音;
S1.2: 分别提取背景环境端 声音及用户语音 端声音的音频波形;
S1.3: 根据提取的用户语音 端音频调整 背景环境端 音频;
S1.4: 以获取的时间为基准, 将用户语音端音频与调整后的背景端环境音频进行相减,
生成最终语音信息 。
3.根据权利要求2所述的一种 多语言混合语音识别方法, 其特征在于, S1.1中的步骤具
体为:
以时间为基准, 通过两声音获取模块分别获取用户语音端声音与背景环境端声音, 当
用户声音停止后, 两声 音获取模块继续录制预设时长的声 音。
4.根据权利要求3所述的一种 多语言混合语音识别方法, 其特征在于, S1.3 中的步骤具
体为:
分别截取用户语音 端及背景环境端, 在用户声 音停止后继续录制的声 音音频波形;
根据用户语音端录制的声音音频波形振幅调整背景环境端录制的声音音频波形的振
幅, 使两段声 音音频波形振幅相重合, 并算出背景环境端录制音频波形振幅的调整倍数;
将背景环境端 音频振幅乘以算出的调整倍数 得到调整后的背景端环境音频。
5.根据权利要求1所述的一种 多语言混合语音识别方法, 其特征在于, 所述混合语音模
型是由多种不同语言的词典以及多种不同语言的语音数据训练形成。
6.根据权利要求1所述的一种多语言 混合语音识别方法, 其特 征在于, S3具体为:
将若干个字词序列分别输入到对应的语言识别模型中, 语言识别模型将各字词序列识
别成一个完整的语句, 并通过该语句所属语言下的语法、 语义标准对其进 行评分, 将得分最
高的语句作为识别结果进行输出。
7.根据权利要求1所述的一种 多语言混合语音识别方法, 其特征在于, 当得分最高的语
句数量x大于1时, 将该x个语句根据历史使用频率进 行排序, 并将排序第一的语句作为识别
结果进行输出。
8.根据权利要求7所述的一种 多语言混合语音识别方法, 其特征在于, 当历史使用频率
排序第一的语句数量y大于1时, 以用户上次输出语句所属语言为基准, 从y个语句中筛选出
使用相同语言的语句作为识别结果进行输出。
9.如权利要求1 ‑8任意一项所述的多语言混合语音识别方法的应用, 其特征在于, 应用
于课堂教学及语音识别输入中。权 利 要 求 书 1/1 页
2
CN 114627853 A
2多语言混合 语音识别方 法及其应用
技术领域
[0001]本发明涉及语音识别技 术领域, 具体是多语言 混合语音识别方法及其应用。
背景技术
[0002]随着数据化教学的日益普及, 大多教学场地内相应配置了投影屏等多媒体辅助设
备用于教学展示。 为了便于文字的输入, 教学多媒体设备上也逐渐采用语音识别方式进行
输入, 语音识别输入相较传统手写、 打字 输入方式使用更加轻松、 便捷。
[0003]随着世界多元化的进程, 学习不 同语种的学生也逐渐增多。 现有的语言识别模型
大多只能识别一至两个语种, 随着 语种数量的增大, 若 单从发音 上进行语音的识别, 其出错
的概率就会大幅度提升, 因为同一 发音在不同语言环境下, 可能对应找不同的字词, 因此在
多语言的条件下, 单从字词发音入手进行识别其识别的出错 率较高。
发明内容
[0004]为解决上述问题, 本发明提供一种多语言 混合语音识别方法及其应用。
[0005]为了实现上述的技 术目的, 本发明所采用的技 术方案为:
[0006]一种多语言 混合语音识别方法, 包括:
[0007]S1: 获取用户声 音信息, 并生成语音信息;
[0008]S2: 将语音信息输入到混合语音模型中, 通过混合语音模型将语音信息识别成若
干个字词序列;
[0009]S3: 将若干个字词序列分别输入到对应的语言识别模型中得到各语言识别模型得
分, 将得分最高的识别结果进行输出。
[0010]进一步的, S1具体包括如下步骤:
[0011]S1.1: 分别获取背景环境端 声音及用户语音 端声音;
[0012]S1.2: 分别提取背景环境端 声音及用户语音 端声音的音频波形;
[0013]S1.3: 根据提取的用户语音 端音频调整 背景环境端 音频;
[0014]S1.4: 以获取的时间为基准, 将用户语音端音频与调整后的背景端环境音频进行
相减, 生成最终语音信息 。
[0015]进一步的, S1.1中的步骤具体为:
[0016]以时间为基准, 通过两声音获取模块分别获取用户语音端声音与背景环境端声
音, 当用户声 音停止后, 两声 音获取模块继续录制预设时长的声 音。
[0017]进一步的, S1.3中的步骤具体为:
[0018]分别截取用户语音端及背景环境端, 在用户声音停止后继续录制的声音音频波
形;
[0019]根据用户语音端录制的声音音频波形振幅调整背景环境端录制的声音音频波形
的振幅, 使两段声音音频波形振 幅相重合, 并算出背景环境端录制音频波形振 幅的调整倍
数;说 明 书 1/4 页
3
CN 114627853 A
3
专利 多语言混合语音识别方法及其应用
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:50:10上传分享