安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210063231.1 (22)申请日 2022.01.20 (71)申请人 上海喜马拉雅科技有限公司 地址 201100 上海市闵行区紫星路58 8号2 幢2062室 (72)发明人 杭江南 张炫 姚晓远 颜杰  钟剑哲 未波波 罗欢  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 代理人 杜杨 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 音频信息质量衡量方法、 装置和电子设备 (57)摘要 本申请提供一种音 频信息质量衡量方法、 装 置和电子设备, 在获得待处理音频对应的待处理 文本后, 对待处理文本进行实体提取, 得到属于 实体的多个词语, 基于各词语所属领域以及各词 语的类型, 按预设规则得到各词语的分值, 并得 到待处理文本的规则得分。 此外, 对多个词语进 行聚类处理, 基于聚类结果得到待处理文本的语 义得分, 根据规则得分和语义得分, 得到待处理 文本的质量衡量分值。 本方案中, 从词语的领域 和类型, 以及聚类结果表征的词语的分布情况进 行文本的质量评价, 可以实现基于文本的实质内 容的衡量, 得到可表征实质内容信息质量的衡量 结果。 权利要求书2页 说明书11页 附图5页 CN 114417843 A 2022.04.29 CN 114417843 A 1.一种音频信息质量衡量方法, 其特 征在于, 所述方法包括: 对待处理音频进行识别, 得到对应的待处 理文本; 对所述待处 理文本进行实体提取, 得到属于实体的多个词语; 基于各所述词语所属领域以及各所述词语的类型, 按预设规则得到各所述词语的分 值, 并根据多个词语的分值, 计算得到所述待处 理文本的规则得分; 对所述多个词语进行聚类处 理, 基于聚类结果得到所述待处 理文本的语义得分; 根据所述 规则得分和语义得分, 得到所述待处 理文本的质量衡量分值。 2.根据权利要求1所述的音频信 息质量衡量方法, 其特征在于, 所述待处理文本包含多 个句子, 所述对待处 理文本进行实体提取的步骤之前, 所述方法还 包括: 在所述待处理文本包含的句子数量超过设定数量 时, 筛选出多个句子中句子长度小于 预设长度的目标句子; 将筛选的目标句子从所述待处 理文本中滤除; 若滤除后的待处理文本 中包含的句子的数量超过所述设定数量, 则对所述待处理文本 进行截断处 理, 以保留设定数量的句子的待处 理文本。 3.根据权利要求1所述的音频信 息质量衡量方法, 其特征在于, 所述基于各所述词语所 属领域以及各 所述词语的类型, 按预设规则得到各 所述词语的分值的步骤, 包括: 针对各所述词语, 若所述词语所属领域为第一预设领域, 则将所述词语的分值设置为 与所述第一预设领域对应的分值; 若所述词语所属领域 不属于所述第一预设领域, 则获得 所述词语的类型; 根据所述词语的类型, 为所述词语设置与所述类型对应的分值。 4.根据权利要求3所述的音频信 息质量衡量方法, 其特征在于, 所述根据 所述词语的类 型, 为所述词语设置与所述类型对应的分值的步骤, 包括: 检测所述词语的长度是否大于或等于设定长度, 若大于或等于设定长度, 则将所述词 语的分值设置为与其类型对应的第一分值; 若所述词语的长度小于所述设定长度, 则将所述词语的分值设置为与其类型对应的第 二分值, 所述第二分值大于所述第一分值。 5.根据权利要求1所述的音频信 息质量衡量方法, 其特征在于, 所述对所述多个词语进 行聚类处 理的步骤, 包括: 获得各所述词语对应的词向量; 计算每两个词向量之间的余弦相似度; 根据每两个词向量之间的余弦相似度对多个词向量进行聚类处 理。 6.根据权利要求5所述的音频信 息质量衡量方法, 其特征在于, 所述获得各所述词语对 应的词向量的步骤, 包括: 针对各所述词语, 查询预设的向量库, 若未查找到与所述词语对应的词向量, 则将所述 词语重新导入实体提取工具中进 行实体提取, 并基于重新提取得到的实体对应的词语进 行 查询, 直至获得对应的词向量。 7.根据权利要求1所述的音频信 息质量衡量方法, 其特征在于, 所述基于聚类结果得到 所述待处 理文本的语义得分的步骤, 包括: 基于聚类后得到的多个簇, 计算每 个簇的簇内距离以及多个簇之间的簇间距离;权 利 要 求 书 1/2 页 2 CN 114417843 A 2根据得到的簇内距离和簇间距离, 计算得到所述待处 理文本的语义得分。 8.根据权利要求1所述的音频信 息质量衡量方法, 其特征在于, 所述根据 所述规则得分 和语义得分, 得到所述待处 理文本的质量衡量分值的步骤, 包括: 在所述待处理文本包含的词语所属领域为第 二预设领域 时, 将所述规则得分和语义得 分中的较小值作为质量衡量分值, 或将所述规则得分、 语义得分和设定分值中的最小值作 为质量衡量分值; 在所述待处理文本包含的词语所属领域不属于第 二预设领域 时, 计算所述规则得分和 所述语义得分之间的差值; 若所述差值属于预设范围, 则将所述规则得分和语义得分的平均值作为质量衡量分 值, 若所述差值 不属于所述预设范围, 则将所述 规则得分作为所述质量衡量分值。 9.一种音频信息质量衡量装置, 其特 征在于, 所述装置包括: 识别模块, 用于对待处 理音频进行识别, 得到对应的待处 理文本; 提取模块, 用于对所述待处 理文本进行实体提取, 得到属于实体的多个词语; 计算模块, 用于基于各所述词语所属领域以及各所述词语的类型, 按预设规则得到各 所述词语的分值, 并根据多个词语的分值, 计算得到所述待处 理文本的规则得分; 聚类模块, 用于对所述多个词语进行聚类处理, 基于聚类结果得到所述待处理文本的 语义得分; 获得模块, 用于根据所述 规则得分和语义得分, 得到所述待处 理文本的质量衡量分值。 10.一种电子设备, 其特征在于, 包括一个或多个存储介质和一个或多个与存储介质通 信的处理器, 一个或多个存储介质存储有处理器可执行 的机器可执行指令, 当电子设备运 行时, 处理器执行所述机器可 执行指令, 以执 行权利要求1 ‑8中任意一项所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 114417843 A 3

PDF文档 专利 音频信息质量衡量方法、装置和电子设备

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 音频信息质量衡量方法、装置和电子设备 第 1 页 专利 音频信息质量衡量方法、装置和电子设备 第 2 页 专利 音频信息质量衡量方法、装置和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。