专利 一种基于时序深度强化学习的实时产品推荐方法与系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111506733.9 (22)申请日 2021.12.10 (71)申请人中信银行股份有限公司地址 100020 北京市朝阳区光华路10号院1 号楼6-30层、 32-42层 (72)发明人冯瑜　闭思泽　 (74)专利代理机构北京市兰台律师事务所 11354 代理人操飞越　张峰 (51)Int.Cl. G06Q 30/06(2012.01) G06N 20/00(2019.01) (54)发明名称一种基于时序深度强化学习的实时产品推荐方法与系统 (57)摘要本发明提供了一种基于时序深度强化学习的实时产品推荐方法与系统，涉及智能化实时推荐技术领域，方法包括：获得待推荐产品的目标应用场景，基于用户数据获取模块获得用户维度数据、基于产品信息模块获得产品维度数据；将用户维度数据和产品维度数据发送至数据处理模块进行数据处理，获得数据流结构，发送至初始化后的代理推理模块，结合当前模型参数，进行产品推荐的推理预测，获得模型层推理结果；将模型层推理结果上传至推理输出模块，进行结果转换，生成推荐产品列表形式，推荐产品列表形式可直接供使用；将推荐产品列表形式反馈至目标用户。解决了现有技术中的推荐方法都具有一定的局限性，导致存在实时性较差和准确度较低的技术问题。权利要求书2页说明书12页附图2页 CN 114240549 A 2022.03.25 CN 114240549 A 1.一种基于时序深度强化学习的实时产品推荐方法，其中，所述方法应用于产品推荐系统，且所述产品推荐系统包括用户数据获取模块、产品信息模块、数据处理模块、代理推理模块以及推理输出模块，所述方法包括：获得待推荐产品的目标应用场景；根据所述目标应用场景，基于所述用户数据获取模块获得用户维度数据、基于所述产品信息模块获得产品维度数据；将所述用户维度数据和所述产品维度数据发送至所述数据处理模块进行数据处理，获得数据流结构；将所述数据流结构发送至初始化后的所述代理推理模块，结合当前模型参数，进行产品推荐的推理预测，获得模型层推理结果；将所述模型层推理结果上传至所述推理输出模块，进行结果转换，生成推荐产品列表形式，其中，所述推荐产品列表形式可直接供用户使用；基于所述产品推荐系统，将所述推荐产品列表形式反馈至目标用户。 2.如权利要求1所述的方法，其中，所述产品推荐系统还包括迭代更新模块，所述方法包括：将所述推荐产品列表形式反馈至目标用户，获得所述目标用户的产品使用反馈信息；将所述产品使用反馈信息发送至所述迭代更新模型，基于马尔科夫决策过程，对所述代理推理模块的模型层参数进行更新。 3.如权利要求2所述的方法，其中，所述产品推荐系统还包括事件触发模块，所述方法包括：基于所述事件触发模块，对所述目标用户的状态信息进行实时监测，获得动态用户状态信息；判断所述动态用户状态信息的状态变化是否达到预设变化阈值；若所述动态用户状态信息的状态变化达到所述预设变化阈值，生成第一触发指令；根据所述第一触发指令，自动触发目标功能模块，其中，所述目标功能模块对应于所述动态用户状态信息中的目标变化动态。 4.如权利要求3所述的方法，其中，所述产品推荐系统还包括系统 ‑外界交互模块，所述方法包括：基于所述系统 ‑外界交互模块，生成第一自定义设置指令；根据所述第一自定义设置指令，所述目标用户可自定义设置所述产品推荐系统的衍生功能。 5.如权利要求4所示的方法，其中，所述产品推荐系统还包括数据存储模块，所述方法包括：基于所述数据存储模块，生成第一存储指令；根据所述第一存储指令，对所述产品推荐系统中的历史推荐产品列表进行存储。 6.如权利要求2所述的方法，其中，所述基于马尔科夫决策过程，对所述代理推理模块的模型层参数进行更新，包括：获得所述目标用户的当前状态信息；基于所述产品推荐系统，获得与所述当前状态信息相匹配的推荐产品信息，其中，所述权　利　要　求　书 1/2 页 2 CN 114240549 A 2推荐产品信息包含于产品组成池；判断所述目标用户是否接收使用所述推荐产品信息；若所述目标用户接收使用所述推荐产品信息，生成所述推荐产品信息的推荐奖励；根据所述推荐奖励，更新所述当前状态信息。 7.一种基于时序深度强化学习的实时产品推荐系统，其中，所述系统包括：第一获得单元，所述第一获得单元用于获得待推荐产品的目标应用场景；第二获得单元，所述第二获得单元用于根据所述目标应用场景，基于用户数据获取模块获得用户维度数据、基于产品信息模块获得产品维度数据；第三获得单元，所述第三获得单元用于将所述用户维度数据和所述产品维度数据发送至数据处理模块进行数据处理，获得数据流结构；第一处理单元，所述第一处理单元用于将所述数据流结构发送至初始化后的代理推理模块，结合当前模型参数，进行产品推荐的推理预测，获得模型层推理结果；第一生成单元，所述第一生成单元用于将所述模型层推理结果上传至推理输出模块，进行结果转换，生成推荐产品列表形式，其中，所述推荐产品列表形式可直接供使用；第一执行单元，所述第一执行单元用于基于产品推荐系统，将所述推荐产品列表形式反馈至目标用户。 8.一种基于时序深度强化学习的实时产品推荐系统，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序，当所述程序被所述处理器执行时，使系统以执行如权利要求1至6任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114240549 A 3

专利 一种基于时序深度强化学习的实时产品推荐方法与系统

专利一种基于时序深度强化学习的实时产品推荐方法与系统