安全公司报告
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210063231.1 (22)申请日 2022.01.20 (71)申请人 上海喜马拉雅科技有限公司 地址 201100 上海市闵行区紫星路58 8号2 幢2062室 (72)发明人 杭江南 张炫 姚晓远 颜杰 钟剑哲 未波波 罗欢 (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 代理人 杜杨 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 音频信息质量衡量方法、 装置和电子设备 (57)摘要 本申请提供一种音 频信息质量衡量方法、 装 置和电子设备, 在获得待处理音频对应的待处理 文本后, 对待处理文本进行实体提取, 得到属于 实体的多个词语, 基于各词语所属领域以及各词 语的类型, 按预设规则得到各词语的分值, 并得 到待处理文本的规则得分。 此外, 对多个词语进 行聚类处理, 基于聚类结果得到待处理文本的语 义得分, 根据规则得分和语义得分, 得到待处理 文本的质量衡量分值。 本方案中, 从词语的领域 和类型, 以及聚类结果表征的词语的分布情况进 行文本的质量评价, 可以实现基于文本的实质内 容的衡量, 得到可表征实质内容信息质量的衡量 结果。 权利要求书2页 说明书11页 附图5页 CN 114417843 A 2022.04.29 CN 114417843 A 1.一种音频信息质量衡量方法, 其特 征在于, 所述方法包括: 对待处理音频进行识别, 得到对应的待处 理文本; 对所述待处 理文本进行实体提取, 得到属于实体的多个词语; 基于各所述词语所属领域以及各所述词语的类型, 按预设规则得到各所述词语的分 值, 并根据多个词语的分值, 计算得到所述待处 理文本的规则得分; 对所述多个词语进行聚类处 理, 基于聚类结果得到所述待处 理文本的语义得分; 根据所述 规则得分和语义得分, 得到所述待处 理文本的质量衡量分值。 2.根据权利要求1所述的音频信 息质量衡量方法, 其特征在于, 所述待处理文本包含多 个句子, 所述对待处 理文本进行实体提取的步骤之前, 所述方法还 包括: 在所述待处理文本包含的句子数量超过设定数量 时, 筛选出多个句子中句子长度小于 预设长度的目标句子; 将筛选的目标句子从所述待处 理文本中滤除; 若滤除后的待处理文本 中包含的句子的数量超过所述设定数量, 则对所述待处理文本 进行截断处 理, 以保留设定数量的句子的待处 理文本。 3.根据权利要求1所述的音频信 息质量衡量方法, 其特征在于, 所述基于各所述词语所 属领域以及各 所述词语的类型, 按预设规则得到各 所述词语的分值的步骤, 包括: 针对各所述词语, 若所述词语所属领域为第一预设领域, 则将所述词语的分值设置为 与所述第一预设领域对应的分值; 若所述词语所属领域 不属于所述第一预设领域, 则获得 所述词语的类型; 根据所述词语的类型, 为所述词语设置与所述类型对应的分值。 4.根据权利要求3所述的音频信 息质量衡量方法, 其特征在于, 所述根据 所述词语的类 型, 为所述词语设置与所述类型对应的分值的步骤, 包括: 检测所述词语的长度是否大于或等于设定长度, 若大于或等于设定长度, 则将所述词 语的分值设置为与其类型对应的第一分值; 若所述词语的长度小于所述设定长度, 则将所述词语的分值设置为与其类型对应的第 二分值, 所述第二分值大于所述第一分值。 5.根据权利要求1所述的音频信 息质量衡量方法, 其特征在于, 所述对所述多个词语进 行聚类处 理的步骤, 包括: 获得各所述词语对应的词向量; 计算每两个词向量之间的余弦相似度; 根据每两个词向量之间的余弦相似度对多个词向量进行聚类处 理。 6.根据权利要求5所述的音频信 息质量衡量方法, 其特征在于, 所述获得各所述词语对 应的词向量的步骤, 包括: 针对各所述词语, 查询预设的向量库, 若未查找到与所述词语对应的词向量, 则将所述 词语重新导入实体提取工具中进 行实体提取, 并基于重新提取得到的实体对应的词语进 行 查询, 直至获得对应的词向量。 7.根据权利要求1所述的音频信 息质量衡量方法, 其特征在于, 所述基于聚类结果得到 所述待处 理文本的语义得分的步骤, 包括: 基于聚类后得到的多个簇, 计算每 个簇的簇内距离以及多个簇之间的簇间距离;权 利 要 求 书 1/2 页 2 CN 114417843 A 2根据得到的簇内距离和簇间距离, 计算得到所述待处 理文本的语义得分。 8.根据权利要求1所述的音频信 息质量衡量方法, 其特征在于, 所述根据 所述规则得分 和语义得分, 得到所述待处 理文本的质量衡量分值的步骤, 包括: 在所述待处理文本包含的词语所属领域为第 二预设领域 时, 将所述规则得分和语义得 分中的较小值作为质量衡量分值, 或将所述规则得分、 语义得分和设定分值中的最小值作 为质量衡量分值; 在所述待处理文本包含的词语所属领域不属于第 二预设领域 时, 计算所述规则得分和 所述语义得分之间的差值; 若所述差值属于预设范围, 则将所述规则得分和语义得分的平均值作为质量衡量分 值, 若所述差值 不属于所述预设范围, 则将所述 规则得分作为所述质量衡量分值。 9.一种音频信息质量衡量装置, 其特 征在于, 所述装置包括: 识别模块, 用于对待处 理音频进行识别, 得到对应的待处 理文本; 提取模块, 用于对所述待处 理文本进行实体提取, 得到属于实体的多个词语; 计算模块, 用于基于各所述词语所属领域以及各所述词语的类型, 按预设规则得到各 所述词语的分值, 并根据多个词语的分值, 计算得到所述待处 理文本的规则得分; 聚类模块, 用于对所述多个词语进行聚类处理, 基于聚类结果得到所述待处理文本的 语义得分; 获得模块, 用于根据所述 规则得分和语义得分, 得到所述待处 理文本的质量衡量分值。 10.一种电子设备, 其特征在于, 包括一个或多个存储介质和一个或多个与存储介质通 信的处理器, 一个或多个存储介质存储有处理器可执行 的机器可执行指令, 当电子设备运 行时, 处理器执行所述机器可 执行指令, 以执 行权利要求1 ‑8中任意一项所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 114417843 A 3
专利 音频信息质量衡量方法、装置和电子设备
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:49
上传分享
举报
下载
原文档
(978.7 KB)
分享
友情链接
T-GDNS 004—2023 医疗机构信息系统等级保护定级工作指南.pdf
GB-T 18593-2010 熔融结合环氧粉末涂料的防腐蚀涂装.pdf
DB11-T 1208-2020 固定资产投资项目节能监察技术核查报告编制规范 北京市.pdf
GB-T 19315-2003 小艇 最大装载量.pdf
GB-T 40060-2021 液氢贮存和运输技术要求.pdf
TTAF 180.2—2023 小程序个人信息保护规范 第2部分:个人信息收集行为.pdf
GA-T 766-2020 人精液PSA检测 金标试剂条法.pdf
GB-T 18916.53-2021 取水定额 第53部分:食糖.pdf
GB-T 18154-2000 监控式抑爆装置技术要求.pdf
GB-T 14352.13-2010 钨矿石、钼矿石化学分析方法 第13部分:锡量测定.pdf
GB-T 25875-2010 草原蝗虫宜生区划分与监测技术导则.pdf
DB37-T 4203.3—2020 林业碳汇计量监测体系建设规范 第3部分:森林碳储量计算 山东省.pdf
T-SSITS 2001—2022 低速无人车移动底盘通用技术条件.pdf
TTAF 077.18—2022 APP收集使用个人信息最小必要评估规范 第18部分:剪切板信息.pdf
2023年AI大模型应用研究报告.pdf
DB3309-T 93-2022 地理标志产品 嵊泗贻贝 舟山市.pdf
GB-T 36431-2018 消费品分类与代码.pdf
硅创社2024001-AIGC2023~2024跨年报告V1.0 2024.pdf
GB-T 22240-2018 信息安全技术 网络安全等级保护定级指南.pdf
T-CYCKSC CYCKSC001—2023 豆腐渣.pdf
交流群
-->
1
/
19
评价文档
赞助2元 点击下载(978.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。