专利 多语言混合语音识别方法及其应用

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210264804.7 (22)申请日 2022.03.17 (71)申请人邢台职业技术学院地址 054000 河北省邢台市信都区泉南西大街473号 (72)发明人加鹏飞　 (74)专利代理机构厦门原创专利事务所(普通合伙) 35101 专利代理师高巍 (51)Int.Cl. G10L 15/00(2013.01) G10L 15/01(2013.01) G10L 15/06(2013.01) G10L 15/26(2006.01) G10L 21/0316(2013.01)G06F 40/253(2020.01) G06F 40/30(2020.01) (54)发明名称多语言混合语音识别方法及其应用 (57)摘要本发明涉及语音识别领域，具体为一种多语言混合语音识别方法，包括： S1：获取用户声音信息，并生成语音信息； S2：将语音信息输入到混合语音模型中，通过混合语音模型将语音信息识别成若干个字词序列； S3：将若干个字词序列分别输入到对应的语言识别模型中得到各语言识别模型得分，将得分最高的识别结果进行输出；本发明提供的多语言混合语音识别方法结合不同语言环境下的语法、语义对用户的语音信息进行识别，大大提升了语音识别结果的准确性。此外，本发明通过背景音调整消除方式，有效避免了语音识别过程中环境音对识别结果造成的影响，使识别结果更加准确，适宜进一步推广应用。权利要求书1页说明书4页附图1页 CN 114627853 A 2022.06.14 CN 114627853 A 1.一种多语言混合语音识别方法，其特征在于，包括： S1：获取用户声音信息，并生成语音信息； S2：将语音信息输入到混合语音模型中，通过混合语音模型将语音信息识别成若干个字词序列； S3：将若干个字词序列分别输入到对应的语言识别模型中得到各语言识别模型得分，将得分最高的识别结果进行输出。 2.根据权利要求1所述的一种多语言混合语音识别方法，其特征在于， S1具体包括如下步骤： S1.1：分别获取背景环境端声音及用户语音端声音； S1.2：分别提取背景环境端声音及用户语音端声音的音频波形； S1.3：根据提取的用户语音端音频调整背景环境端音频； S1.4：以获取的时间为基准，将用户语音端音频与调整后的背景端环境音频进行相减，生成最终语音信息。 3.根据权利要求2所述的一种多语言混合语音识别方法，其特征在于， S1.1中的步骤具体为：以时间为基准，通过两声音获取模块分别获取用户语音端声音与背景环境端声音，当用户声音停止后，两声音获取模块继续录制预设时长的声音。 4.根据权利要求3所述的一种多语言混合语音识别方法，其特征在于， S1.3 中的步骤具体为：分别截取用户语音端及背景环境端，在用户声音停止后继续录制的声音音频波形；根据用户语音端录制的声音音频波形振幅调整背景环境端录制的声音音频波形的振幅，使两段声音音频波形振幅相重合，并算出背景环境端录制音频波形振幅的调整倍数；将背景环境端音频振幅乘以算出的调整倍数得到调整后的背景端环境音频。 5.根据权利要求1所述的一种多语言混合语音识别方法，其特征在于，所述混合语音模型是由多种不同语言的词典以及多种不同语言的语音数据训练形成。 6.根据权利要求1所述的一种多语言混合语音识别方法，其特征在于， S3具体为：将若干个字词序列分别输入到对应的语言识别模型中，语言识别模型将各字词序列识别成一个完整的语句，并通过该语句所属语言下的语法、语义标准对其进行评分，将得分最高的语句作为识别结果进行输出。 7.根据权利要求1所述的一种多语言混合语音识别方法，其特征在于，当得分最高的语句数量x大于1时，将该x个语句根据历史使用频率进行排序，并将排序第一的语句作为识别结果进行输出。 8.根据权利要求7所述的一种多语言混合语音识别方法，其特征在于，当历史使用频率排序第一的语句数量y大于1时，以用户上次输出语句所属语言为基准，从y个语句中筛选出使用相同语言的语句作为识别结果进行输出。 9.如权利要求1 ‑8任意一项所述的多语言混合语音识别方法的应用，其特征在于，应用于课堂教学及语音识别输入中。权　利　要　求　书 1/1 页 2 CN 114627853 A 2多语言混合语音识别方法及其应用技术领域 [0001]本发明涉及语音识别技术领域，具体是多语言混合语音识别方法及其应用。背景技术 [0002]随着数据化教学的日益普及，大多教学场地内相应配置了投影屏等多媒体辅助设备用于教学展示。为了便于文字的输入，教学多媒体设备上也逐渐采用语音识别方式进行输入，语音识别输入相较传统手写、打字输入方式使用更加轻松、便捷。 [0003]随着世界多元化的进程，学习不同语种的学生也逐渐增多。现有的语言识别模型大多只能识别一至两个语种，随着语种数量的增大，若单从发音上进行语音的识别，其出错的概率就会大幅度提升，因为同一发音在不同语言环境下，可能对应找不同的字词，因此在多语言的条件下，单从字词发音入手进行识别其识别的出错率较高。发明内容 [0004]为解决上述问题，本发明提供一种多语言混合语音识别方法及其应用。 [0005]为了实现上述的技术目的，本发明所采用的技术方案为： [0006]一种多语言混合语音识别方法，包括： [0007]S1：获取用户声音信息，并生成语音信息； [0008]S2：将语音信息输入到混合语音模型中，通过混合语音模型将语音信息识别成若干个字词序列； [0009]S3：将若干个字词序列分别输入到对应的语言识别模型中得到各语言识别模型得分，将得分最高的识别结果进行输出。 [0010]进一步的， S1具体包括如下步骤： [0011]S1.1：分别获取背景环境端声音及用户语音端声音； [0012]S1.2：分别提取背景环境端声音及用户语音端声音的音频波形； [0013]S1.3：根据提取的用户语音端音频调整背景环境端音频； [0014]S1.4：以获取的时间为基准，将用户语音端音频与调整后的背景端环境音频进行相减，生成最终语音信息。 [0015]进一步的， S1.1中的步骤具体为： [0016]以时间为基准，通过两声音获取模块分别获取用户语音端声音与背景环境端声音，当用户声音停止后，两声音获取模块继续录制预设时长的声音。 [0017]进一步的， S1.3中的步骤具体为： [0018]分别截取用户语音端及背景环境端，在用户声音停止后继续录制的声音音频波形； [0019]根据用户语音端录制的声音音频波形振幅调整背景环境端录制的声音音频波形的振幅，使两段声音音频波形振幅相重合，并算出背景环境端录制音频波形振幅的调整倍数；说　明　书 1/4 页 3 CN 114627853 A 3

专利 多语言混合语音识别方法及其应用

专利多语言混合语音识别方法及其应用