安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210494647.9 (22)申请日 2022.05.07 (71)申请人 百度在线网络技 术 (北京) 有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦三层 (72)发明人 颜林 李忠飞 李航 郑建嘉  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06F 9/50(2006.01) G06N 3/08(2006.01) (54)发明名称 计算资源控制模 型的训练方法、 计算资源控 制方法及装置 (57)摘要 本公开提供了一种计算资源控制模型的训 练方法、 计算资源控制方法及装置, 涉及人工智 能技术领域, 尤其涉及智 能推荐技术领域。 实现 方案为: 响应于第一用户的第一推荐请求, 生成 与计算资源控制模型的参数相对应的参数扰动; 基于计算资源控制模型的参数和参数扰动, 生成 临时控制模 型; 将第一推荐请求的请求特征输入 临时控制模 型, 以得到临时控制模 型输出的第一 控制值, 第一控制值用于控制处理第一推荐请求 的计算资源的数量; 基于第一控制值, 处理第一 推荐请求, 以得到第一推荐请求的第一推荐结 果; 获取第一用户对第一推荐结果的第一行为数 据; 以及基于参数扰动和第一行为数据, 调整计 算资源控制模型的参数。 权利要求书3页 说明书14页 附图6页 CN 114896061 A 2022.08.12 CN 114896061 A 1.一种计算资源 控制模型的训练方法, 包括: 响应于第一用户的第 一推荐请求, 生成与 所述计算资源控制模型的参数相对应的参数 扰动; 基于所述计算资源 控制模型的参数和所述 参数扰动, 生成临时控制模型; 将所述第一推荐请求的请求特征输入所述临时控制模型, 以得到所述临时控制模型输 出的第一控制值, 所述第一控制值用于控制处 理所述第一推荐请求的计算资源的数量; 基于所述第一控制值, 处理所述第一推荐请求, 以得到所述第一推荐请求的第一推荐 结果; 获取所述第一用户对所述第一推荐结果的第一行为数据; 以及 基于所述 参数扰动和所述第一行为数据, 调整所述计算资源 控制模型的参数。 2.根据权利要求1所述的方法, 其中, 所述 参数扰动为 服从标准 正态分布的随机数。 3.根据权利要求1或2所述的方法, 其中, 基于所述第 一控制值, 处理所述第 一推荐请求 包括: 基于所述第 一控制值, 调用推荐模型处理所述第 一推荐请求, 其中, 所述第 一控制值包 括输入所述推荐模型 的候选对 象的数量、 所述推荐模型 的类型、 所述推荐模型 的数量中的 至少一种。 4.根据权利要求1 ‑3中任一项所述的方法, 其中, 所述第 一行为数据包括所述第 一推荐 结果的浏览时长、 点击次数、 点赞次数、 收藏次数、 评论次数中的至少一种。 5.根据权利要求1 ‑4中任一项所述的方法, 其中, 所述第一推荐请求有多个, 并且其中, 基于所述 参数扰动和所述第一行为数据, 调整所述计算资源 控制模型的参数包括: 基于多个第 一推荐请求各自对应的第 一控制值和第 一行为数据, 从所述多个第 一推荐 请求对应的多个参数扰动中确定多个目标参数扰动; 以及 基于所述多个目标参数扰动以及所述多个目标参数扰动各自对应的第 一行为数据, 调 整所述计算资源 控制模型的参数。 6.根据权利要求5所述的方法, 其中, 基于多个第 一推荐请求各自对应的第 一控制值和 第一行为数据, 从所述多个第一推荐请求对应的多个参数扰动中确定多个目标参数扰动包 括: 基于所述第 一行为数据, 从所述多个参数扰动中确定多个候选参数扰动, 其中, 所述多 个候选参数扰动中的每个候选参数扰动的第一行为数据大于所述多个参数扰动的第一行 为数据的平均值; 以及 基于所述第 一控制值, 从所述多个候选参数扰动中确定多个目标参数扰动, 其中, 所述 多个目标参数扰动的第一控制值的平均值与基准控制值的差小于第一阈值。 7.根据权利要求5或6所述的方法, 其中, 基于所述多个目标参数扰动以及所述多个目 标参数扰动各自对应的第一行为数据, 调整所述计算资源 控制模型的参数包括: 对于所述多个目标参数扰动中的每个目标参数扰动, 基于该目标参数扰动对应的第 一 行为数据, 确定该目标参数扰动对应的推荐效果; 基于所述多个目标参数扰动以及所述多个目标参数扰动各自的推荐 效果, 确定所述计 算资源控制模型的参数变化 量; 以及 将所述计算资源控制模型的参数与 所述参数变化量相加, 以得到所述计算资源控制模权 利 要 求 书 1/3 页 2 CN 114896061 A 2型的调整后的参数。 8.根据权利要求1 ‑7中任一项所述的方法, 还 包括: 响应于第二用户的第 二推荐请求, 将所述第 二推荐请求的请求特征输入所述计算资源 控制模型, 以得到所述计算资源控制模型输出 的第二控制值, 所述第二控制值用于控制处 理所述第二推荐请求的计算资源的数量; 基于所述第二控制值, 处理所述第二推荐请求, 以得到所述第二推荐请求的第二推荐 结果; 获取所述第二用户对所述第二推荐结果的第二行为数据; 以及 基于所述第二行为数据, 确定所述计算资源 控制模型 是否完成训练。 9.根据权利要求8所述的方法, 其中, 基于所述第二行为数据, 确定所述计算资源控制 模型是否完成训练包括: 响应于确定所述第 二行为数据满足以下条件中的任一项, 确定所述计算资源控制模型 完成训练: 所述第二行为数据收敛、 所述第二行为数据与所述第一行为数据的差小于第二 阈值、 所述第二行为数据相较于基准行为数据的增长比例大于第三阈值, 其中, 所述基准行 为数据为第三用户对基于基准控制值所 得到的推荐结果的行为数据。 10.根据权利要求1 ‑9中任一项所述的方法, 还 包括: 获取样本请求特 征和基准控制值; 以及 基于所述样本请求特征和基准控制值, 训练所述计算资源控制模型, 以得到所述计算 资源控制模型的参数的初始值。 11.一种计算资源 控制方法, 包括: 响应于用户的推荐请求, 获取 所述推荐请求的请求特 征; 将所述请求特征输入计算资源控制模型, 以得到所述计算资源控制模型输出的控制 值, 所述控制值用于控制处理所述推荐请求的计算资源的数量, 其中, 所述计算资源控制模 型是基于权利要求1 ‑10中任一项所述的方法训练得到的; 以及 基于所述控制值, 处 理所述推荐请求, 以得到所述推荐请求的推荐结果。 12.一种计算资源 控制模型的训练装置, 包括: 第一生成模块, 被配置为响应于第一用户的第一推荐请求, 生成与所述计算资源控制 模型的参数相对应的参数扰动; 第二生成模块, 被配置为基于所述计算资源控制模型的参数和所述参数扰动, 生成临 时控制模型; 控制模块, 被配置为将所述第一推荐请求的请求特征输入所述临时控制模型, 以得到 所述临时控制模型输出的第一控制值, 所述第一控制值用于控制处理所述第一推荐请求的 计算资源的数量; 推荐模块, 被配置为基于所述第 一控制值, 处理所述第 一推荐请求, 以得到所述第一推 荐请求的第一推荐结果; 获取模块, 被 配置为获取 所述第一用户对所述第一推荐结果的第一行为数据; 以及 调整模块, 被配置为基于所述参数扰动和所述第一行为数据, 调整所述计算资源控制 模型的参数。 13.一种计算资源 控制装置, 包括:权 利 要 求 书 2/3 页 3 CN 114896061 A 3

.PDF文档 专利 计算资源控制模型的训练方法、计算资源控制方法及装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 计算资源控制模型的训练方法、计算资源控制方法及装置 第 1 页 专利 计算资源控制模型的训练方法、计算资源控制方法及装置 第 2 页 专利 计算资源控制模型的训练方法、计算资源控制方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:17:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。