安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211213108.X (22)申请日 2022.09.30 (71)申请人 齐鲁工业大学 地址 250353 山东省济南市长清区大 学路 3501号 (72)发明人 杨振宇 马凯洋 徐保杰 刘小玉  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 任欢 (51)Int.Cl. G06F 16/2457(2019.01) G06F 16/242(2019.01) G06F 16/22(2019.01) G06F 16/906(2019.01) G06F 40/30(2020.01)G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于特征的序列推荐数据增强方法 (57)摘要 本发明属于序列推荐技术领域, 尤其涉及一 种基于特征的序列推荐数据增强方法, 包括以下 步骤: 对获取的原始用户序列进行预处理, 将原 始用户序列的所有项目映射到高维空间; 利用K ‑ means聚类算法对预处理后的所有项目进行聚 类, 得到所有项目的嵌入分布; 通过计算用户序 列中的目标项目与聚类后簇心的距离, 得到空间 分布损失; 对空间分布损失进行反向传播, 得出 嵌入每个维度梯度值; 利用嵌入每个维度的梯度 值, 基于dropout的方法进行数据增强。 该方法将 项目的特征选择过程类比到项目嵌入空间中, 求 出项目嵌入每个维度的重要性排名, 利用这个重 要度进行嵌入级的数据增强过程。 本发明通过向 量层面的增强方法来保留序列的语义和结构, 能 够生成质量更高的增强数据。 权利要求书3页 说明书11页 附图1页 CN 115470258 A 2022.12.13 CN 115470258 A 1.一种基于特 征的序列推荐数据增强方法, 其特 征在于, 包括以下步骤: 对获取的原 始用户序列进行 预处理, 将原始用户序列的所有 项目映射到高维空间; 利用K‑means聚类算法对预处 理后的所有 项目进行聚类, 得到所有 项目的嵌入分布; 通过计算用户序列中的项目与聚类后簇心的距离, 得到空间分布损失; 对空间分布损失进行反向传播, 得 出嵌入每 个维度梯度值; 利用嵌入每 个维度的梯度值, 基于dropout的方法进行 数据增强。 2.如权利要求1所述的一种基于特征的序列推荐数据增强方法, 其特征在于, 所述预处 理还包括: 引入位置编码矩阵将项目嵌入和位置编码向量相加作为模型输入。 3.如权利要求1所述的一种基于特征的序列推荐数据增强方法, 其特征在于, 所述的方 法还包括基于增强后的用户序列进行序列推荐任务, 包括以下步骤: 将增强后的用户序列输入编码器, 得到用户表示; 利用用户表示进行推荐预测; 或者, 所述的方法还 包括对比训练任务, 包括以下步骤: 对获取的数据集进行 数据增强; 基于空间分布 的采样策略, 对数据集的聚类结果进行划分, 获得用户序列的语义相似 序列; 将语义相似序列和用户序列一起作为对比学习的正样本对, 将同一训练批次中所有的 其他增强样本作为负 样本, 利用 用户的正负 样本进行对比训练, 得到更精确的用户表示。 4.如权利要求1所述的一种基于特征的序列推荐数据增强方法, 其特征在于, 所述的基 于空间分布的采样策略包括: 选取用户序列中的最后一个项目作为 目标项目, 将目标项目 在同一簇中的用户序列划为语义相似的用户序列; 如果两个用户的目标项目相同, 则优先选择。 5.如权利要求3所述的一种基于特征的序列推荐数据增强方法, 其特征在于, 所述的对 比训练包括: 利用点积衡量每个 向量之间的相似性, 对于训练批次为B的数据, 通过以下公 式进行训练: 其中, S‑表示负样本集, h ′i,h′i,s分别表示增强后的用户表示以及兴趣相似用户表示, μ 是超参数, T表示向量 转置。 6.如权利要求1所述的一种基于特征的序列推荐数据增强方法, 其特征在于, 所述空间 分布损失为:权 利 要 求 书 1/3 页 2 CN 115470258 A 2其中, τ表示每个高斯分布相同的导数, v表示预测 项目, ci是聚类后簇心的向量表示, K 表示簇的个数; 对于给定的项目及其空间分布损 失, 对空间分布损 失进行反向传播, 但不进行梯度和 参数的更新, 将空间分布损失对项目梯度的绝对值作为重要性判断依据。 7.如权利要求1所述的一种基于特 征的序列推荐数据增强方法, 其特 征在于, 所述利用 用户表示进行推荐预测, 包括: 采用内积计算用户表示与项目集中每 个项目交 互的预测得分, 使用交叉熵损失函数来计算预测任务的误差: 其中, b是训练样本的索引, B是一个batch的序列数量, yn代表真实的下一个项目的one ‑ hot编码, 表示预测得分; 或者, 所述的方法还 包括多任务训练策略, 包括以下步骤: 联合训练对比训练任务、 数据增强任务以及序列推荐预测任务, 采用多任务训练策略优化目标函数; 目标函数如下 所示: L=LRec+λ1Ls+λ2Lscl, 其中, λ1和 λ2是控制所提出两个任务强度的超参数, Ls为空间分布损失函数; LRec表示预 测任务的误差; Lscl表示对比训练的误差; 或者, 所述基于dropout的增强方 法包括: 对嵌入 h0进行进行dropout操作得到 对 Iv(x)进行排序, 保留重要性排名高于给定比例阈值的区域, 针对剩余区域进行随机的 dropout, 增强结果如下: 其中, M(x)表示一个二进制掩码, M(x)的重要性分数Iv(x)排名高于ω的区域赋值为1, 其余为0; 或者, 采用E M算法优化K ‑means聚类模型。 8.一种基于特 征的序列推荐数据增强系统, 其特 征在于, 包括: 预处理模块, 被配置为对获取的原始用户序列进行预处理, 将原始用户序列的所有项 目映射到高维空间; 聚类模块, 被配置为利用K ‑means聚类算法对预处理后的所有项目进行 聚类, 得到所有 项目的嵌入分布; 空间分布损失计算模块, 被配置为通过计算用户序列中的目标项目与聚类后簇心的距 离, 得到空间分布损失;权 利 要 求 书 2/3 页 3 CN 115470258 A 3

PDF文档 专利 一种基于特征的序列推荐数据增强方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于特征的序列推荐数据增强方法 第 1 页 专利 一种基于特征的序列推荐数据增强方法 第 2 页 专利 一种基于特征的序列推荐数据增强方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。