安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210517143.4 (22)申请日 2022.05.12 (71)申请人 天津大学 地址 300000 天津市南 开区卫津路9 2号 (72)发明人 张怡 蔡洁  (74)专利代理 机构 北京沁优知识产权代理有限 公司 11684 专利代理师 郭衍飞 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/34(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种大规模复杂语义网络的分层方法 (57)摘要 一种大规模复杂语义网络的分层方法, 包括 网络结构语义信息建模、 多视图聚类提取混合凝 聚层、 结构凝聚层提取、 混合凝聚节点摘要提取 四个步骤。 本发明提出了一种网络分层方法, 它 是一种融合了基于语义和结构特征的凝聚节点 提取方法, 为网络构建不同尺度的三个层级, 设 计了一个支持大规模复杂语义网络探索 的分层 可视化方法, 在技术手段方面, 使用图表示学习 方法提取结构和语义嵌入向量, 并将它们视为网 络的不同视图特征。 在此基础上, 本发明设计了 多视图聚类算法来提取凝聚节 点集群, 并进一步 汇集成混合凝聚节点。 多个凝聚节点相互链接, 构成了粗粒度层级。 权利要求书1页 说明书6页 附图3页 CN 115062142 A 2022.09.16 CN 115062142 A 1.一种大规模复杂语义网络的分层方法, 其特 征在于: 包括如下步骤: S1、 网络结构语义信息建模: 对网络进行节点嵌入向量的提取以建模 网络的结构和语义信 息, 并将网络的语义信 息 数据进行数据预 处理, 使用上下文相关的网络表示学习模型CA NE生成具有网络节点结构和 语义信息的低维嵌入表示, 来 为下游任务 生成特征向量; S2、 多视图聚类提取混合凝聚层: 采用多视 图聚类, 使用语义和结构信息划分节点集群, 借助上游任务获得的特征向量 进一步构建混合凝聚节点对应的节点 集群, 即混合凝聚层; S3、 结构凝聚层提取: 使用社区结构进一步划分网络, 使新划分得到的子集群结构趋于分散, 得到结构凝聚 层; S4、 混合凝聚节点摘要提取: 每个混合凝聚节点各代表一个语义结构集群, 围绕此集群由内而外生成三部分信 息概 览, 对于集群内部, 摘要向用户展示凝聚节点所代表的局部网络的主题思想, 提取有重要影 响的代表子节点作为特别 关注对象, 对于集群外部, 通过显示邻域级别体现其在全局网络 中与其他节点主题的亲 疏关系。 2.根据权利要求1所述的一种大规模 复杂语义网络的分层方法, 其特征在于: 所述网络 表示学习模型CA NE的嵌入对象是携带复杂文本网络中的节点, 且生成表现形式一致的结构 和语义特征向量, 以每条边链接的节点对作为输入, 生成的节点语义表示根据节点交互邻 居的不同, 引入互相注意力机制, 具有上 下文相关的特 征。 3.根据权利要求1所述的一种大规模 复杂语义网络的分层方法, 其特征在于: 所述多视 图聚类方法揭示来自不同视角的上游任务获得 的特征向量的内在联系和 其之间相互补充 的信息, 寻找视图之间的互补和共识来协助聚类。 4.根据权利要求1所述的一种大规模 复杂语义网络的分层方法, 其特征在于: 所述网络 结构语义信息建模步骤中, 数据预处 理方法为: 对节点文本进行规范大小写、 语法剔除和去停用词操作, 停用词包括冠词、 介词、 代词、 连词的功能词。 5.根据权利要求3所述的一种大规模 复杂语义网络的分层方法, 其特征在于: 所述多视 图聚类通过近邻传播算法实现, 所述近邻传播算法为一种 无监督机器学习算法, 无需指定 聚类数目, 通过在数据点之间发送并传播消息直到收敛来创建聚类。 6.根据权利要求1所述的一种大规模 复杂语义网络的分层方法, 其特征在于: 所述结构 凝聚层提取步骤中, 社区结构进一 步划分网络通过非重 叠的节点社区发现算法实现。权 利 要 求 书 1/1 页 2 CN 115062142 A 2一种大规模复杂语 义网络的分层方 法 技术领域 [0001]本发明涉及数据探索技 术领域, 尤其是一种大规模复杂语义网络的分层方法。 背景技术 [0002]信息技术的发展日新月异, 也为知识结构带来了巨大变革。 从第一封电子邮件发 送成功, 到即时通讯工具的兴起, 再到在线网络的推广, 人类的生活摆脱了地理的桎梏, 从 现实世界向虚拟网络延伸。 知识交换有了信息科技作为媒介, 逐渐呈现出传播范围广、 速度 快、 信息量大的特点。 广泛传播的知识形成了节 点中携带丰富文本信息的大规模网络, 即为 大规模复杂语义网络 。 [0003]面对这样庞大的数据量, 人类有限的感知能力为他们接收知识带来了瓶颈, 寻找 一种合适的方式协助探索活动就具有了意义。 可视化依托数据分析、 计算机图形学、 人机交 互等技术手段, 辅助用户快速地从复杂网络中挖掘信息, 使人的认知行为不再受 限于感知 系统, 极大地 提升了信息接收的能力。 [0004]然而, 如何精准地将大规模复杂语义网络数据编码为易于感知的可视元素存在挑 战。 大规模复杂语义网络具有的两个突出特征, 网络规模巨大和节点内容复杂, 它们都是可 视表示中亟待解决的难点: 受网络规模的影响, 可视化呈现元素 的数量往往会超过用户理 解本体视觉表示的感知能力。 当发生信息过载时, 用户的决策质量很可能会下降; 节点语义 的复杂性更是为网络的可视化增加了新的难题, 节点本身携带的丰富文本信息和网络上下 文复杂的语义关系难以在有限的界面中全部展示出来, 信息定位在庞大的网络中极其困 难。 因此, 为了满足探索和分析大规模复杂语义网络的需求, 需要寻找一种合适的可视化形 式, 它可以简化网络表示并揭示链接数据背后隐藏的模式。 [0005]网络分层可视化作为抽象并简化网络的常用方法, 将节点链 路中实体之间的关系 视为几个相互依赖的子系统(层), 抽象了底层的图结构并生成凝聚节点(在一些工作中也 被称为超级节点 或元节点), 以不同的粒度展示信息。 它通过控制不同层 级中节点的展开和 收缩允许用户关注网络可视化中的特定区域并探索其内部细节, 满足了对 大规模网络的探 索需求。 但是, 现有的分层技术大多面向 同质性网络, 将网络节点看作是拓扑中被唯一标识 的顶点; 或是面向属性网络, 根据网络的数值属性进 行节点聚合。 图分层技术作为可视化领 域中简化网络表示的重要手段, 为扩大网络视觉可扩展性边界做出了一定的贡献, 可以有 效节约布局计算资源, 提高视觉质量。 携带文本信息的大规模网络的涌现, 为其处理丰富信 息和应对大规模数据的能力提出了新要求, 带来了新的挑战。 如何科学地在文本信息丰富 的网络中提取层次化凝聚节点, 并在展示时尽可能地向用户传达其概览信息, 是当下要解 决的重要问题。 发明内容 [0006]本发明的目的在于克服现有技术的不足, 提供一种基于图表示学习和多视图可视 化的大规模复杂语义网络分层可视化方法。说 明 书 1/6 页 3 CN 115062142 A 3

.PDF文档 专利 一种大规模复杂语义网络的分层方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种大规模复杂语义网络的分层方法 第 1 页 专利 一种大规模复杂语义网络的分层方法 第 2 页 专利 一种大规模复杂语义网络的分层方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。