安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210288560.6 (22)申请日 2022.03.23 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 王勇 龙睿 孙拔群 柴鹰 刘子玉 苏文博 (74)专利代理 机构 北京友联知识产权代理事务 所(普通合伙) 11343 专利代理师 王丹玉 汪海屏 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 文本分类模型的训练方法、 装置、 电子设备 和存储介质 (57)摘要 本申请公开了一种文本分类模型的训练方 法、 装置、 电子设备和存储介质, 属于模 型训练技 术领域。 文本分类模型的训练方法, 包括: 构建第 一文本表征网络、 第二文本表征网络和第三文本 表征网络, 第一文本表征网络与第二文本表征网 络为语义相近的表征网络, 第二文本表征网络与 第三文本表征网络为语义不同的表征网络; 将文 本数据集输入至第一文本表征网络、 第二文本表 征网络和第三文本表征网络对文本分类模型进 行训练, 以得到训练后的文本分类模型。 权利要求书2页 说明书16页 附图6页 CN 114637851 A 2022.06.17 CN 114637851 A 1.一种文本分类模型的训练方法, 其特 征在于, 包括: 构建第一文本表征网络、 第二文本表征网络和第三文本表征网络, 所述第一文本表征 网络与所述第二文本表征网络为语义相近的表征网络, 所述第二文本表征网络与所述第三 文本表征网络为语义 不同的表征网络; 将文本数据集输入至所述第 一文本表征网络、 所述第 二文本表征网络和所述第 三文本 表征网络对文本分类模型进行训练, 以得到训练后的文本分类模型。 2.根据权利要求1所述的文本分类模型的训练方法, 其特征在于, 所述构建第 一文本表 征网络、 第二文本表征网络和第三文本表征网络, 包括: 获取第一抛 出值和第二抛 出值; 根据所述第一抛 出值, 构建所述第一文本表征网络和所述第二文本表征网络; 根据所述第二抛 出值, 构建所述第三文本表征网络; 其中, 所述第一抛 出值小于所述第二抛 出值。 3.根据权利要求2所述的文本分类模型的训练方法, 其特 征在于, 所述第一抛 出值的取值范围为大于 0.00001, 小于0.5; 所述第二抛 出值的取值范围为大于 0.50001, 小于1。 4.根据权利要求1至3中任一项所述的文本分类模型的训练方法, 其特征在于, 在所述 将文本数据集输入至所述第一文本表征网络、 所述第二文本表征网络和所述第三文本表征 网络对文本分类模型进行训练, 以得到训练后的文本分类模型之前, 还 包括: 获取文本样本数据; 按照预设规则, 对所述文本样本数据进行分词处 理, 以得到所述文本数据集。 5.根据权利要求1至3中任一项所述的文本分类模型的训练方法, 其特征在于, 所述将 文本数据集输入至所述第一文本表征网络、 所述第二文本表征网络和所述第三文本表征网 络进行训练, 以得到训练后的文本分类模型, 包括: 获取预设训练次数; 按照所述预设训练次数, 根据所述文本数据集训练多个所述文本分类模型; 获取多个所述文本分类模型中每 个所述文本分类模型对应的损失函数; 根据所述多个损失函数, 确定多个所述文本分类模型中的训练后的文本分类模型。 6.根据权利要求4所述的文本分类模型的训练方法, 其特征在于, 所述获取多个所述文 本分类模型中每 个所述文本分类模型对应的损失函数, 还 包括: 获取每个所述文本分类模型的第一语义向量、 第二语义向量和第三语义向量; 根据所述第一语义向量、 所述第二语义向量和所述第三语义向量, 确定所述文本分类 模型的模型损失函数; 其中, 所述第一语义向量与所述第一文本表征网络对应, 所述第二语义向量与所述第 二文本表征网络对应, 所述第二语义向量与所述第一文本表征网络对应。 7.根据权利要求6所述的文本分类模型的训练方法, 其特征在于, 所述根据所述第 一语 义向量、 所述第二语义向量和所述第三语义向量, 确定所述文本 分类模型的模型损失函数, 包括: 根据所述第一语义向量和预设向量, 确定第一损失函数; 根据所述第一语义向量、 所述第二语义向量和所述第三语义向量, 确定第二损失函数;权 利 要 求 书 1/2 页 2 CN 114637851 A 2根据所述第一损失函数和所述第二损失函数, 确定所述模型损失函数。 8.根据权利要求7所述的文本分类模型的训练方法, 其特征在于, 所述根据所述第 一语 义向量、 所述第二语义向量和所述第三语义向量, 确定第二损失函数, 包括: 计算所述第一语义向量和所述第二语义向量的第一 余弦距离; 计算所述第二语义向量和所述第三语义向量的第二 余弦距离; 根据所述第一 余弦距离和所述第二 余弦距离, 确定第二损失函数。 9.根据权利要求8所述的文本分类模型的训练方法, 其特征在于, 所述根据所述第 一损 失函数和所述第二损失函数, 确定所述模型损失函数包括: 根据所述第二语义向量和所述预设向量, 确定第三损失函数; 根据所述第一损 失函数、 所述第二损 失函数和所述第三损 失函数, 确定所述模型损 失 函数。 10.根据权利要求9所述的文本分类模型的训练方法, 其特征在于, 所述根据所述第一 损失函数、 所述第二损失函数和所述第三损失函数, 确定所述模型损失函数, 包括: 根据所述第一语义向量和所述第二语义向量, 确定第四损失函数; 根据所述第一损失函数、 所述第 二损失函数、 所述第 三损失函数和所述第四损失函数, 确定所述模型损失函数。 11.一种文本分类模型的训练装置, 其特 征在于, 包括: 构建模块, 用于构建第一文本表征网络、 第二文本表征网络和第三文本表征网络, 第一 文本表征网络与第二文本表征网络为语义相近的表征网络, 第二文本表征网络与第三文本 表征网络为语义 不同的表征网络; 训练模块, 用于将文本数据集输入至第一文本表征网络、 第二文本表征网络和第三文 本表征网络对文本分类模型进行训练, 以得到训练后的文本分类模型。 12.一种电子设备, 其特 征在于, 包括: 存储器, 其上存 储有程序或指令; 处理器, 用于执行所述程序或指令时实现如权利要求1至10中任一项所述的文本分类 模型的训练方法的步骤。 13.一种可读存储介质, 其上存储有程序或指令, 其特征在于, 所述程序或指令被处理 器执行时实现如权利要求1至10中任一项所述的文本分类模型的训练方法的步骤。权 利 要 求 书 2/2 页 3 CN 114637851 A 3
专利 文本分类模型的训练方法、装置、电子设备和存储介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:50:59
上传分享
举报
下载
原文档
(866.5 KB)
分享
友情链接
OpenGroup 在TOGAF企业架构中集成风险和安全 .pdf
GB-T 19707-2005 冰刀鞋.pdf
GB-T 31013-2014 声学 管道、阀门和法兰的隔声.pdf
T-CIECCPA 010—2020 节能诊断数据结构化处理规范.pdf
T-ZZB 2034—2021 食品包装用阻隔塑料杯.pdf
DB32- 4148-2021 燃煤电厂大气污染物排放标准 江苏省.pdf
GB-T 34411-2017 基本医疗保险待遇稽核业务规范.pdf
GB-T 26006-2010 船用铝合金挤压管、棒、型材.pdf
GB-T 25147-2010 工业设备化学清洗中金属腐蚀率及腐蚀总量的测试方法 重量法.pdf
GA-T 1390.5-2017 信息安全技术 网络安全等级保护基本要求 第5部门 工业控制系统安全扩展要求.pdf
DB41-T 2665-2024 大气挥发性有机物走航自动监测技术规范 河南省.pdf
GB/T 40209-2021 制造装备集成信息模型通用建模规则.pdf
T-GDACM 0116—2022 中医护理门诊建设规范.pdf
GB-T 37165-2018 机器人用精密摆线针轮减速器.pdf
DAMA数据管理知识体系指南(原书第2版).pdf
DB13-T 2262-2015 在用工业锅炉节能运行监测技术规程 河北省.pdf
NB-T 10204-2019 分布式光伏发电低压并网接口装置技术要求.pdf
T-CESA 1040—2019 信息技术 人工智能 面向机器学习的数据标注规程.pdf
教育部机关及直属事业单位教育数据管理办法.pdf
GB-T 39559.4-2020 城市轨道交通设施运营监测技术规范 第4部分:轨道和路基.pdf
1
/
3
25
评价文档
赞助2.5元 点击下载(866.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。