(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211213108.X
(22)申请日 2022.09.30
(71)申请人 齐鲁工业大学
地址 250353 山东省济南市长清区大 学路
3501号
(72)发明人 杨振宇 马凯洋 徐保杰 刘小玉
(74)专利代理 机构 济南圣达知识产权代理有限
公司 372 21
专利代理师 任欢
(51)Int.Cl.
G06F 16/2457(2019.01)
G06F 16/242(2019.01)
G06F 16/22(2019.01)
G06F 16/906(2019.01)
G06F 40/30(2020.01)G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于特征的序列推荐数据增强方法
(57)摘要
本发明属于序列推荐技术领域, 尤其涉及一
种基于特征的序列推荐数据增强方法, 包括以下
步骤: 对获取的原始用户序列进行预处理, 将原
始用户序列的所有项目映射到高维空间; 利用K ‑
means聚类算法对预处理后的所有项目进行聚
类, 得到所有项目的嵌入分布; 通过计算用户序
列中的目标项目与聚类后簇心的距离, 得到空间
分布损失; 对空间分布损失进行反向传播, 得出
嵌入每个维度梯度值; 利用嵌入每个维度的梯度
值, 基于dropout的方法进行数据增强。 该方法将
项目的特征选择过程类比到项目嵌入空间中, 求
出项目嵌入每个维度的重要性排名, 利用这个重
要度进行嵌入级的数据增强过程。 本发明通过向
量层面的增强方法来保留序列的语义和结构, 能
够生成质量更高的增强数据。
权利要求书3页 说明书11页 附图1页
CN 115470258 A
2022.12.13
CN 115470258 A
1.一种基于特 征的序列推荐数据增强方法, 其特 征在于, 包括以下步骤:
对获取的原 始用户序列进行 预处理, 将原始用户序列的所有 项目映射到高维空间;
利用K‑means聚类算法对预处 理后的所有 项目进行聚类, 得到所有 项目的嵌入分布;
通过计算用户序列中的项目与聚类后簇心的距离, 得到空间分布损失;
对空间分布损失进行反向传播, 得 出嵌入每 个维度梯度值;
利用嵌入每 个维度的梯度值, 基于dropout的方法进行 数据增强。
2.如权利要求1所述的一种基于特征的序列推荐数据增强方法, 其特征在于, 所述预处
理还包括: 引入位置编码矩阵将项目嵌入和位置编码向量相加作为模型输入。
3.如权利要求1所述的一种基于特征的序列推荐数据增强方法, 其特征在于, 所述的方
法还包括基于增强后的用户序列进行序列推荐任务, 包括以下步骤:
将增强后的用户序列输入编码器, 得到用户表示;
利用用户表示进行推荐预测;
或者,
所述的方法还 包括对比训练任务, 包括以下步骤:
对获取的数据集进行 数据增强;
基于空间分布 的采样策略, 对数据集的聚类结果进行划分, 获得用户序列的语义相似
序列;
将语义相似序列和用户序列一起作为对比学习的正样本对, 将同一训练批次中所有的
其他增强样本作为负 样本, 利用 用户的正负 样本进行对比训练, 得到更精确的用户表示。
4.如权利要求1所述的一种基于特征的序列推荐数据增强方法, 其特征在于, 所述的基
于空间分布的采样策略包括: 选取用户序列中的最后一个项目作为 目标项目, 将目标项目
在同一簇中的用户序列划为语义相似的用户序列;
如果两个用户的目标项目相同, 则优先选择。
5.如权利要求3所述的一种基于特征的序列推荐数据增强方法, 其特征在于, 所述的对
比训练包括: 利用点积衡量每个 向量之间的相似性, 对于训练批次为B的数据, 通过以下公
式进行训练:
其中, S‑表示负样本集, h ′i,h′i,s分别表示增强后的用户表示以及兴趣相似用户表示, μ
是超参数, T表示向量 转置。
6.如权利要求1所述的一种基于特征的序列推荐数据增强方法, 其特征在于, 所述空间
分布损失为:权 利 要 求 书 1/3 页
2
CN 115470258 A
2其中, τ表示每个高斯分布相同的导数, v表示预测 项目, ci是聚类后簇心的向量表示, K
表示簇的个数;
对于给定的项目及其空间分布损 失, 对空间分布损 失进行反向传播, 但不进行梯度和
参数的更新, 将空间分布损失对项目梯度的绝对值作为重要性判断依据。
7.如权利要求1所述的一种基于特 征的序列推荐数据增强方法, 其特 征在于,
所述利用 用户表示进行推荐预测, 包括:
采用内积计算用户表示与项目集中每 个项目交 互的预测得分,
使用交叉熵损失函数来计算预测任务的误差:
其中, b是训练样本的索引, B是一个batch的序列数量, yn代表真实的下一个项目的one ‑
hot编码,
表示预测得分;
或者, 所述的方法还 包括多任务训练策略, 包括以下步骤:
联合训练对比训练任务、 数据增强任务以及序列推荐预测任务,
采用多任务训练策略优化目标函数;
目标函数如下 所示:
L=LRec+λ1Ls+λ2Lscl,
其中, λ1和 λ2是控制所提出两个任务强度的超参数, Ls为空间分布损失函数; LRec表示预
测任务的误差; Lscl表示对比训练的误差;
或者, 所述基于dropout的增强方 法包括: 对嵌入 h0进行进行dropout操作得到
对
Iv(x)进行排序, 保留重要性排名高于给定比例阈值的区域, 针对剩余区域进行随机的
dropout, 增强结果如下:
其中, M(x)表示一个二进制掩码, M(x)的重要性分数Iv(x)排名高于ω的区域赋值为1,
其余为0;
或者, 采用E M算法优化K ‑means聚类模型。
8.一种基于特 征的序列推荐数据增强系统, 其特 征在于, 包括:
预处理模块, 被配置为对获取的原始用户序列进行预处理, 将原始用户序列的所有项
目映射到高维空间;
聚类模块, 被配置为利用K ‑means聚类算法对预处理后的所有项目进行 聚类, 得到所有
项目的嵌入分布;
空间分布损失计算模块, 被配置为通过计算用户序列中的目标项目与聚类后簇心的距
离, 得到空间分布损失;权 利 要 求 书 2/3 页
3
CN 115470258 A
3
专利 一种基于特征的序列推荐数据增强方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:07:04上传分享