(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111412279.0
(22)申请日 2021.11.25
(65)同一申请的已公布的文献号
申请公布号 CN 113836370 A
(43)申请公布日 2021.12.24
(73)专利权人 上海观安信息技 术股份有限公司
地址 200000 上海市浦东 新区泥城镇云端
路1412弄 15号二层1室
(72)发明人 陶景龙 王启凡 魏国富 殷钱安
余贤喆 周晓勇 梁淑云 刘胜
马影
(74)专利代理 机构 北京中强智尚知识产权代理
有限公司 1 1448
代理人 黄耀威
(51)Int.Cl.
G06F 16/9035(2019.01)
G06F 16/906(2019.01)
G06N 20/00(2019.01)(56)对比文件
CN 113378892 A,2021.09.10
CN 113468432 A,2021.10.01
CN 106657410 A,2017.0 5.10
CN 113011886 A,2021.0 6.22
CN 109086816 A,2018.12.25
CN 110879856 A,2020.0 3.13
CN 110472050 A,2019.1 1.19
CN 112116464 A,2020.12.2 2
CN 111274907 A,2020.0 6.12
US 2020195 672 A1,2020.0 6.18
陈恩红等.用户序列行为分析研究与应用综
述. 《安徽大 学学报》 .2018,第42卷(第5期),
Mo Chen等.a researc h on user behavi or
sequence analysis based o n social
networking service use- case model.
《Science and Tec hnology》 .2014,
审查员 单娟
(54)发明名称
用户群体的分类方法、 装置、 存储介质及计
算机设备
(57)摘要
本发明公开了一种用户群体的分类方法、 装
置、 存储介质及计算机设备。 其中方法包括: 获取
用户群体的行为数据, 并对用户群体的行为数据
进行预处理, 得到以每个用户的用户名为主体对
象的行为序列数据集; 利用关联分析算法, 对行
为序列数据集中的频繁行为指令组合进行提取
和频次统计, 得到频繁指令组合特征表; 通过序
列对比算法, 计算行为序列数据集中的各个行为
序列之间的序列匹配分值和序列间相似度分值,
得到序列相似性特征表; 对行为序列数据集中的
行为指令进行频次统计, 得到行为指令频次特征
表; 采用半监督分类算法, 对频繁指令组合特征
表、 序列相似性特征表和行为指令频次特征表进
行分类分析, 得到具有不同类别的用户群体, 以提高分类效率。
权利要求书3页 说明书10页 附图6页
CN 113836370 B
2022.03.01
CN 113836370 B
1.一种用户群 体的分类方法, 其特 征在于, 所述方法包括:
获取用户群体的行为数据, 并对所述用户群体的行为数据进行预处理, 得到以每个用
户的用户名为主体对象 的行为序列数据集, 其中, 每个用户名对应一个行为序列, 每个行为
序列包含至少一个行为指令;
利用关联分析算法, 对所述行为序列数据集中的频繁行为指令组合进行提取和频次统
计, 得到频繁指 令组合特征表, 其中, 所述频繁行为指 令组合为所述行为序列数据集中共同
频繁出现的行为指令的组合;
通过序列对比算法, 计算所述行为序列 数据集中的各个行为序列之间的序列匹配分值
和序列间相似度分值, 得到序列相似性特 征表;
对所述行为序列数据集中的行为指令进行 频次统计, 得到行为指令频次特 征表;
采用半监督分类算法, 对所述频繁指令组合特征表、 序列相似性特征表和行为指令频
次特征表进行分类分析, 得到具有不同类别的用户群 体。
2.根据权利要求1所述的方法, 其特征在于, 所述获取用户群体的行为数据, 并对所述
用户群体的行为数据进行预处理, 得到 以每个用户的用户名为主体对象的行为序列数据
集, 包括:
获取用户群体的行为数据, 其中, 所述用户群体的行为数据包括每个用户的用户名、 每
个用户的至少一个行为指令以及每 个行为指令的操作时间;
利用预设的字符字典, 对每 个用户的行为指令进行编码处 理;
根据所述行为指令的操作时间, 对编码后的行为指令进行排序, 得到每个用户的行为
序列;
根据所述每个用户的用户名和所述每个用户的行为序列, 生成以每个用户的用户名为
主体对象的行为序列数据集。
3.根据权利要求1所述的方法, 其特征在于, 所述利用关联分析算法, 对所述行为序列
数据集中的频繁行为指令组合进行提取和频次统计, 得到频繁指令组合特 征表, 包括:
利用关联分析算法, 对所述行为序列数据集中的频繁行为指令组合进行提取, 得到包
含有多个频繁行为指令组合的频繁指令组合列表;
对所述频繁指令组合列表中的每个频繁行为指令组合在所述行为序列数据集中出现
的频次进行统计, 得到以用户名和频繁行为指令组合 为字段名的频繁指令组合特 征表。
4.根据权利要求1所述的方法, 其特征在于, 所述通过序列对比算法, 计算所述行为序
列数据集中的各个行为序列之 间的序列匹配分值和序列间相似度分值, 得到序列相似性特
征表, 包括:
通过全局序列对比算法, 计算所述行为序列数据集中的各个行为序列之间的全局序列
匹配分值数组和全局序列间相似度分值数组;
对所述全局序列匹配分值数组和全局序列间相似度分值数组分别进行最大值、 最小
值、 平均值、 标准差和方差计算, 得到全局序列相似性特 征表;
通过局部序列对比算法, 计算所述行为序列数据集中的各个行为序列之间的局部序列
匹配分值数组和 局部序列间相似度分值数组;
对所述局部序列匹配分值数组和局部序列间相似度分值数组分别进行最大值、 最小
值、 平均值、 标准差和方差计算, 得到局部序列相似性特 征表;权 利 要 求 书 1/3 页
2
CN 113836370 B
2以每个用户的用户名作为关联字段, 对所述全局序列相似性特征表和所述局部序列相
似性特征表进行关联合并, 得到序列相似性特 征表。
5.根据权利要求1所述的方法, 其特征在于, 所述对行为序列 数据集中的行为指令进行
频次统计, 得到行为指令频次特 征表, 包括:
对所述行为序列数据集中的所有行为指令进行合并和去重处理, 得到包含有所有行为
指令的行为指令列表;
对所述行为指令列表中的每个行为指令在所述行为序列数据集中出现的频次进行统
计, 得到以用户名和行为指令为字段名的行为指令频次特 征表。
6.根据权利要求1所述的方法, 其特征在于, 所述采用半监督分类算法, 对所述频繁指
令组合特征表、 序列相似性特征表和行为指令频次特征表进行分类分析, 得到具有不同类
别的用户群 体, 包括:
以每个用户的用户名作为关联字段, 对所述频繁指令组合特征表、 序列相似性特征表
和行为指令频次特 征表进行关联合并, 得到特 征集成数据表;
通过半监督支持向量机算法, 对所述特征集成数据表进行分类分析, 得到具有不同类
别的用户群 体。
7.根据权利要求6所述的方法, 其特征在于, 所述用户群体包括有标签用户和无标签用
户, 所述有 标签用户的行为数据中包含一个分类标签; 则所述通过半监督支持向量机算法,
对所述特 征集成数据表进行分类分析, 得到具有不同类别的用户群 体, 包括:
根据所述有标签用户在所述特征集成数据表中的特征和所述有标签用户的分类标签,
对支持向量机模型进行训练, 得到初始用户分类模型;
将所述无标签用户在所述特征集成数据表中的特征输入到所述初始用户分类模型中,
得到所述无 标签用户的分类标签;
根据所述无标签用户在所述特征集成数据表中的特征和所述无标签用户的分类标签,
对所述初始用户分类模型进行优化, 得到用户分类模型;
将所述用户群体中所有用户在所述特征集成数据表中的特征输入到所述用户分类模
型中, 得到具有不同类别的用户群 体。
8.一种用户群 体的分类装置, 其特 征在于, 所述装置包括:
用户数据获取模块, 用于获取用户群体的行为数据, 并对所述用户群体的行为数据进
行预处理, 得到以每个用户的用户名为主体对象的行为序列数据集, 其中, 每个用户名对应
一个行为序列, 每 个行为序列包 含至少一个行为指令;
频繁项特征提取模块, 用于利用关联分析算法, 对所述行为序列数据集中的频繁行为
指令组合进 行提取和频次统计, 得到频繁指 令组合特征表, 其中, 所述频繁行为指令组合为
所述行为序列数据集中共同频繁出现的行为指令的组合;
相似性特征提取模块, 用于通过序列对比算法, 计算所述行为序列数据集中的各个行
为序列之间的序列匹配分值和序列间相似度分值, 得到序列相似性特 征表;
指令频次特征提取模块, 用于对所述行为序列数据集中的行为指令进行频次统计, 得
到行为指令频次特 征表;
用户群体分类模块, 用于采用半监督分类算法, 对所述频繁指令组合特征表、 序列相似
性特征表和行为指令频次特 征表进行分类分析, 得到具有不同类别的用户群 体。权 利 要 求 书 2/3 页
3
CN 113836370 B
3
专利 用户群体的分类方法、装置、存储介质及计算机设备
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:22:33上传分享