(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210070769.5
(22)申请日 2022.01.21
(71)申请人 东北大学
地址 110819 辽宁省沈阳市和平区文化路
三号巷11号
(72)发明人 申德荣 郭彤 聂铁铮 寇月
于戈
(74)专利代理 机构 沈阳东大知识产权代理有限
公司 21109
代理人 梁焱
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 16/28(2019.01)
G06F 17/16(2006.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于概率图模型的网络表格列类型检测方
法
(57)摘要
本发明提供一种基于概率图模型的网络表
格列类型检测方法, 属于语义网中的表格解释领
域。 该方法包括: 将来自同一网站下属于相同模
式的表格拼接成一张表格; 针对拼接表格进行单
列分类: 首先将所述拼接表格中的列划分为数值
型列和字符型列, 然后分别针对 数值型列和字 符
型列进行分类; 在单列分类结果的基础上通过构
建概率图模 型挖掘列间隐含的语义关系, 实现对
整张表的列类型序列的检测。 可以对网络表格中
列的语义类型进行检测并取得较好的效果, 相对
于其它列类型检测方法, 准确率均有10%及以上
提高。
权利要求书2页 说明书8页 附图3页
CN 114417885 A
2022.04.29
CN 114417885 A
1.一种基于概率图模型的网络表格列类型检测方法, 其特征在于: 该方法包括以下步
骤:
步骤1: 网络表格拼接: 将网络表格数据集中具有相同列 标题的网络表格拼接成一张表
格, 获得拼接表格;
步骤2: 针对步骤1中获得的拼接表格进行单列分类: 首先将所述拼接表格中的列划分
为数值型列和字符型列, 然后分别针对数值型列和字符型列进行分类;
步骤3: 基于步骤2的单列分类结果, 构建概率图模型挖掘列间隐含的语义关系, 实现对
整张表的列类型序列的检测。
2.根据权利要求1所述的基于概率图模型的网络表格列类型检测方法, 其特征在于: 所
述网络表格数据集的获取方法为: 遍历网络表格语料库, 在同一网站下寻找具有相同一组
列标题的关系型表格形成网络表格数据集。
3.根据权利要求1所述的基于概率图模型的网络表格列类型检测方法, 其特征在于: 利
用启发式方法将所述 拼接表格中的列划分为数值型列和字符型列。
4.根据权利要求1所述的基于概率图模型的网络表格列类型检测方法, 其特征在于: 针
对所述数值型列进 行分类的方法为: 给定一组彼此不相交的k个知识库类型的集合, 表示为
{V1,V2,...,Vk},Vi∈|V|, 其中|V|为知识库中预定义的语义类型集合, 将表格数据作为输
入, 通过基于随机森林的分类 器为每一个 类别Vi分配一个实际的概 率得分
从而得到整列
的概率得分为
使得目标列的正确类型 所在的位置具有最高的概 率值得分;
所述基于随机森林的分类器是指采用基于统计特征的分类方式, 提取数值信 息中的均
值、 方差、 中位数、 众数、 最大值、 最小值、 峰值、 偏度和标准差; 提取文字信息中每个字母出
现的频率、 字 符长度的均值与方差, 以及具有字符的单元格的占比; 再将提取的所有统计量
作为特征, 利用随机森林算法对分类过程进行建模。
5.根据权利要求1所述的基于概率图模型的网络表格列类型检测方法, 其特征在于: 针
对所述字符型列进行分类的方法为: 通过融合词嵌入和字符嵌入表达文本语义, 使用融合
行列信息的单元格嵌入方法, 并利用得到的单元格向量表示构建基于深度学习的分类模
型, 生成单列在各个 类型下的概率值。
6.根据权利要求5所述的基于概率图模型的网络表格列类型检测方法, 其特征在于: 针
对所述字符型列进行分类的方法具体包括如下步骤:
步骤2.3.1: 单元格文本向量化: 将单元格文本视为一段长度为N的初始文本, 使用预训
练的词向量模 型GloVe和一 维卷积神经网络1D ‑CNN分别得到单元格文本的单词嵌入向量和
字符嵌入向量后, 将二者垂直联接产生一个矩阵, 接着将该矩阵通过高速神经网络
Highway‑NN得到融合词嵌入和字符嵌入的词向量;
步骤2.3.2, 单元格嵌入过程: 除了目标单元格自身携带的信息外, 关注与目标单元格
位于同一列和同一行的其 他单元格中的信息, 以充分学习各种隐式连接;
步骤2.3.2.1, 列间聚合: 针对位于m行n列的目标单元格tm,n, 聚合n列其他单元格tm',n
(m'≠m)的上 下文信息;
步骤2.3.2.2, 行间聚合: 针对位于m行n列的目标单元格tm,n, 聚合m行中其他单元格 的
上下文信息;权 利 要 求 书 1/2 页
2
CN 114417885 A
2步骤2.3.2.3, 单元格嵌入表示: 将目标单元格自身携带的信息以及与所述目标单元格
相关的行间聚合信息和列间聚合信息融合在一起以获取所述目标单元格的全部文本语义
表示;
步骤2.3.3, 字符列分类过程: 通过 聚合待检测目标列的所有单元格的嵌入获得整列的
语义嵌入, 利用该嵌入作为输入训练字符列分类模型。
7.根据权利要求1所述的基于概率图模型的网络表格列类型检测方法, 其特征在于: 所
述步骤3包括如下步骤:
步骤3.1, 生成基于数据集的列类型共现关系矩阵Pcorr: 统计类型对共同出现的次数得
到基于数据集的共现关系矩阵;
步骤3.2, 生成基于知识库的关系矩阵Prela: 利用知识库中属性及其值域和定义域间的
关系得到基于知识库的关系矩阵;
步骤3.3: 生成基于实例的关系矩阵Pentity: 通过遍历两列 中位于同一行中的单元格对
得到基于实例的关系矩阵;
步骤3.4: 融合上述 三种关系矩阵, 获得融合后的多关系矩阵Q;
融合后的多关系矩阵Q如下
其中α1和 α2分别指的是Ci列和Cj列各自的单 元格实体覆盖率;
步骤3.5: 构建概率 图模型进行网络表格的列类型序列检测, 方法为: 在整个网络表格
上使用线性链条件随机场linear ‑CRF, 对相 邻列的值之间的相关性进行建模以执行联合预
测; 其中用单个数值型列在各个类型下的概率值和单个字符型列在各个类型下的概率值来
表示状态 特征函数φsingle(Ci,yi); 利用多关系矩阵Q来表示转移特征函数φmulti(yi‑2,yi‑1,
yi,C), 其中C表示输入的表格列序列{C1,C2,...,CN}, 转移特征函数依赖于当前列yi以及前
两列yi‑2和yi‑1的状态, 用来表示列间关系对语义类型检测的影响。
8.根据权利要求7所述的基于概率图模型的网络表格列类型检测方法, 其特征在于: 所
述基于数据集的列类型共现关系矩阵的生成方法为: 首先初始 化一个矩阵用来记录不同表
格中相同列类型对出现的频率; 然后遍历已有数据集中已标注好列 的语义类型的全部表
格, 遍历每一个表格的所有列, 统计共同出现的列类型对的次数, 同时对应的索引位置的值
加一; 最后统计列类型对的总数并计算得到 两种列类型同时出现的频率矩阵Pcorr。
9.根据权利要求7所述的基于概率图模型的网络表格列类型检测方法, 其特征在于: 所
述基于知识库的关系矩阵的方法为: 对预定义的k个知识库中的类型V进行遍历, 利用
SPARQL对每一种类型进行搜索, 寻找以该类型为定义域的所有属性并赋值给一集合; 接着
遍历该集合, 寻找每一种属性的值域所属于的类型, 如果该类型存在于集合|V|中, 则基于
知识库的关系矩阵Prela中对应的索引位置赋值 为对应的概 率值。
10.根据权利要求7所述的基于概率图模型的网络表格列类型检测方法, 其特征在于:
所述基于实例的关系矩阵生 成方法为: 对于Ci和Cj两列, 通过遍历位于同一行Rm中的单元格
对(tm,i,tm,j)来寻找潜在的关系, 如果通过模糊查找确定知识库中存在与单元格tm,i中文本
对应的实体e且该实体属于当前类型, 则判断tm,j是否存在于该实体的属性值中, 最后通过
多数投票 算法得到基于实例的关系矩阵Pentity。权 利 要 求 书 2/2 页
3
CN 114417885 A
3
专利 基于概率图模型的网络表格列类型检测方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:48上传分享