安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111506733.9 (22)申请日 2021.12.10 (71)申请人 中信银行股份有限公司 地址 100020 北京市朝阳区光 华路10号院1 号楼6-30层、 32-42层 (72)发明人 冯瑜 闭思泽  (74)专利代理 机构 北京市兰台律师事务所 11354 代理人 操飞越 张峰 (51)Int.Cl. G06Q 30/06(2012.01) G06N 20/00(2019.01) (54)发明名称 一种基于时序深度强化学习的实时产品推 荐方法与系统 (57)摘要 本发明提供了一种基于时序深度强化学习 的实时产品推荐方法与系统, 涉及智能化实时推 荐技术领域, 方法包括: 获得待推荐产品的目标 应用场景, 基于用户数据获取模块获得用户维度 数据、 基于产品信息模块获得产品维度数据; 将 用户维度数据和产品维度数据发送至数据处理 模块进行数据处理, 获得数据流结构, 发送至初 始化后的代理推理模块, 结合当前模型参数, 进 行产品推荐的推理预测, 获得模型层推理结果; 将模型层推理结果上传至推理输出模块, 进行结 果转换, 生成推荐产品列表形式, 推荐产品列表 形式可直接供使用; 将推荐产品列表形式反馈至 目标用户。 解决了现有技术中的推荐方法都具有 一定的局限性, 导致存在实时性较差和准确度较 低的技术问题。 权利要求书2页 说明书12页 附图2页 CN 114240549 A 2022.03.25 CN 114240549 A 1.一种基于时序深度强化学习的实时产品推荐方法, 其中, 所述方法应用于产品推荐 系统, 且所述产品推荐系统包括用户数据获取模块、 产品信息模块、 数据处理模块、 代理推 理模块以及推理输出模块, 所述方法包括: 获得待推荐产品的目标应用场景; 根据所述目标应用场景, 基于所述用户数据获取模块获得用户维度数据、 基于所述产 品信息模块获得产品维度数据; 将所述用户维度 数据和所述产品维度 数据发送至所述数据处理模块进行数据处理, 获 得数据流结构; 将所述数据流结构发送至初始化后的所述代理推理模块, 结合当前模型参数, 进行产 品推荐的推理预测, 获得模型层推理结果; 将所述模型层推理结果上传至所述推理输出模块, 进行结果转换, 生成推荐产品列表 形式, 其中, 所述推荐产品列表形式可直接供用户使用; 基于所述产品推荐系统, 将所述推荐产品列表形式反馈 至目标用户。 2.如权利要求1所述的方法, 其中, 所述产品推荐系统还包括迭代更新模块, 所述方法 包括: 将所述推荐产品列表形式反馈 至目标用户, 获得 所述目标用户的产品使用反馈信息; 将所述产品使用反馈信息发送至所述迭代更新模型, 基于马尔科夫决策过程, 对所述 代理推理模块的模型层参数进行 更新。 3.如权利要求2所述的方法, 其中, 所述产品推荐系统还包括事件触发模块, 所述方法 包括: 基于所述事件触发模块, 对所述目标用户的状态信息进行实时监测, 获得动态用户状 态信息; 判断所述动态用户状态信息的状态变化是否 达到预设变化阈值; 若所述动态用户状态信息的状态变化达 到所述预设变化阈值, 生成第一触发指令; 根据所述第一触发指令, 自动触发目标功能模块, 其中, 所述目标功能模块对应于所述 动态用户状态信息中的目标变化动态。 4.如权利要求3所述的方法, 其中, 所述产品推荐系统还包括系统 ‑外界交互模块, 所述 方法包括: 基于所述系统 ‑外界交互模块, 生成第一自定义设置指令; 根据所述第 一自定义设置指令, 所述目标用户可自定义设置所述产品推荐系统 的衍生 功能。 5.如权利要求4所示的方法, 其中, 所述产品推荐系统还包括数据存储模块, 所述方法 包括: 基于所述数据存 储模块, 生成第一存 储指令; 根据所述第一存 储指令, 对所述产品推荐系统中的历史推荐产品列表进行存 储。 6.如权利要求2所述的方法, 其中, 所述基于马尔科夫决策过程, 对所述代理推理模块 的模型层参数进行 更新, 包括: 获得所述目标用户的当前状态信息; 基于所述产品推荐系统, 获得与所述当前状态信息相匹配的推荐产品信息, 其中, 所述权 利 要 求 书 1/2 页 2 CN 114240549 A 2推荐产品信息包 含于产品组成池; 判断所述目标用户是否 接收使用所述推荐产品信息; 若所述目标用户接收使用所述推荐产品信息, 生成所述推荐产品信息的推荐奖励; 根据所述推荐奖励, 更新所述当前状态信息 。 7.一种基于时序深度强化学习的实时产品推荐系统, 其中, 所述系统包括: 第一获得 单元, 所述第一获得 单元用于获得待推荐产品的目标应用场景; 第二获得单元, 所述第二获得单元用于根据所述目标应用场景, 基于用户数据获取模 块获得用户维度数据、 基于产品信息模块获得产品维度数据; 第三获得单元, 所述第 三获得单元用于将所述用户维度 数据和所述产品维度 数据发送 至数据处 理模块进行 数据处理, 获得数据流结构; 第一处理单元, 所述第 一处理单元用于将所述数据流结构发送至初始化后的代理推理 模块, 结合当前模型参数, 进行产品推荐的推理预测, 获得模型层推理结果; 第一生成单元, 所述第一生成单元用于将所述模型层推理结果上传至推理输出模块, 进行结果转换, 生成推荐产品列表形式, 其中, 所述推荐产品列表形式可直接供使用; 第一执行单元, 所述第一执行单元用于基于产品推荐系统, 将所述推荐产品列表形式 反馈至目标用户。 8.一种基于时序深度强化学习的实时产品推荐系统, 包括: 处理器, 所述处理器与存储 器耦合, 所述存储器用于存储程序, 当所述程序被所述处理器执行时, 使系统以执行如权利 要求1至6任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114240549 A 3

.PDF文档 专利 一种基于时序深度强化学习的实时产品推荐方法与系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于时序深度强化学习的实时产品推荐方法与系统 第 1 页 专利 一种基于时序深度强化学习的实时产品推荐方法与系统 第 2 页 专利 一种基于时序深度强化学习的实时产品推荐方法与系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。