(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210317078.0
(22)申请日 2022.03.28
(71)申请人 京东城市 (北京) 数字科技有限公司
地址 100086 北京市海淀区知春路76号(写
字楼)1号楼 9层1-7-5号
(72)发明人 陈国春 张钧波 郑宇
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 王治东
(51)Int.Cl.
G06F 16/29(2019.01)
G06F 16/215(2019.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06F 40/216(2020.01)G06F 16/35(2019.01)
(54)发明名称
地址库构建方法和装置
(57)摘要
本公开提供一种地址库构建方法和装置, 其
中, 方法包括: 获取原始地址 数据; 对所述原始地
址数据进行结构化处理, 得到结构化的地址数据
集; 对所述结构化的地址数据集进行噪音过滤,
得到去噪后的结构化地址数据集; 对 所述去噪后
的结构化地址数据集进行标准化处理, 得到标准
化的地址 数据集。 本公开的地址库构建方法不依
赖人工的编辑和标注, 也不依赖外部已存在的标
准地址数据, 而是通过原始地址数据本身的特
征, 辨识地址数据中噪音信息、 过滤错误的要素
关系、 解决要素关系冲突。
权利要求书3页 说明书14页 附图5页
CN 114880412 A
2022.08.09
CN 114880412 A
1.一种地址库构建方法, 其特 征在于, 包括:
获取原始地址数据;
对所述原 始地址数据进行 结构化处 理, 得到结构化的地址数据集;
对所述结构化的地址数据集进行噪音过 滤, 得到去噪后的结构化 地址数据集;
对所述去噪后的结构化 地址数据集进行 标准化处理, 得到标准 化的地址数据集。
2.根据权利要求1所述的地址库构建方法, 其特征在于, 所述对所述原始地址数据进行
结构化处 理, 得到结构化的地址数据集, 具体包括:
通过命名实体识别模型对所述原始地址数据进行处理, 得到对应的地址要素词组; 其
中, 所述地址要素词组包括至少一组 互相对应的要素类型和要素文本;
从所述地址要素词组中确定其中的一个或多个要素文本作为中心要素;
根据至少一组互相对应的要素类型和要素文本以及所述中心要素进行组合, 生成所述
结构化的地址数据集。
3.根据权利要求2所述的地址库构建方法, 其特征在于, 所述对所述结构化的地址集进
行噪音过 滤, 得到去噪后的结构化 地址数据集, 具体包括:
对所有结构化地址集中的要素文本按照要素类型进行划分, 得到多种类型的要素文本
集合;
对每个类型的所述要素文本集 合进行聚合, 得到聚合后的要素文本集 合;
对每个类型的所述聚合后的要素文本集合进行 噪音过滤, 得到去噪后的结构化地址数
据集。
4.根据权利要求1所述的地址库构建方法, 其特征在于, 所述对所述去噪后的结构化地
址数据集进行 标准化处理, 得到标准 化的地址数据集, 具体包括:
对所述去噪后的结构化的地址数据集进行要素三元组抽取, 得到抽取后的要素三元
组;
将所述要素三元组与三元组模板相结合, 得到符合模板关系的要素三元组;
对所述符合模板关系的要素三元组进行真正三元组关系判断, 判断所述要素三元组 的
真正三元组关系是否正确;
若所述要素三元组的真正三元组关系不正确, 则对所述要素三元组进行要素替换和纠
正, 得到标准 化的地址数据。
5.根据权利要求3所述的地址库构建方法, 其特征在于, 所述对每个类型的所述要素文
本集合进行聚合, 得到聚合后的要素文本集 合, 具体包括:
采用语义为基础、 空间范围约束为辅的要素聚集方式对所述要素文本进行聚合, 得到
聚合后的要素文本集 合。
6.根据权利要求3所述的地址库构建方法, 其特征在于, 所述对每个类型的所述 聚合后
的要素文本集 合进行噪音过 滤, 得到去噪后的结构化 地址数据集, 具体包括:
获取要素文本集 合中的每种类型的要素文本的频次;
将所述频次与预设的阈值相比较, 判断所述频次与所述阈值之间的大小;
若所述频次比所述阈值小, 则判断所述要素文本为噪音;
对判断为噪音的要素文本进行清除, 得到去噪后的结构化 地址数据集。
7.根据权利要求4所述的地址库构建方法, 其特征在于, 所述对所述符合模板关系的要权 利 要 求 书 1/3 页
2
CN 114880412 A
2素三元组进行真正三元组关系判断, 判断所述要素三元组的真正三元组关系 是否正确, 具
体包括:
对所述符合模板关系的要素三元组进行要素三元组关系实例记录和频数统计, 得到所
述要素三元组关系实例的频 数;
对所述频数采用真值发现的方法对所述要素三元组判断所述要素三元组的真正三元
组关系是否正确。
8.根据权利要求4所述的地址库构建方法, 其特征在于, 所述若所述要素三元组 的真正
三元组关系不正确, 则对所述要 素三元组进 行要素替换和纠正, 得到标准化的地址数据, 具
体包括:
获取所述地址数据的包括中心要素的要素三元组;
以所述包括中心要素的要素三元组为起点, 对所述地址数据的所有要素三元组按照粒
度从粗到细进行排列, 并判断所述要素三元组中的头要素 是否正确;
若所述头要素不正确, 则将所述要素三元组中的头要素与比所述要素三元组 的粒度粗
的要素三元组中的尾要素进行替换, 并继续判断所述粒度粗的要 素三元组的头要 素是否正
确;
若所述头要素正确, 则不对所述包括中心要素的要素三元组进行替换, 并继续判断所
述粒度粗的要素三元组的头要素 是否正确。
9.根据权利要求6所述的地址库构建方法, 其特征在于, 所述对判断为噪音的要素文本
进行清除, 得到去噪后的结构化 地址数据集, 具体包括:
若判断为噪音的要素为中心要素, 则丢弃整条地址数据;
若所述判断为噪音的要素不是中心要素, 则只舍弃 所述要素文本 。
10.根据权利要求7所述的地址库构建方法, 其特征在于, 所述对所述频数采用真值发
现的方法对所述要素三元组判断所述要素三元组的真正 三元组关系是否正确, 具体包括:
对所述要素三元组进行初步过 滤, 得到初步过 滤后的要素三元组;
确定所述过 滤后的要素三元组的要素关系的唯一 性;
对所述唯一性为一对一关系的要素三元组采用频次统计的方法确定频次最多的所述
一对一关系的要 素三元组为关系正确的要 素三元组, 则确定其他频次的所述一对一关系的
要素三元组为关系不 正确的要素三元组;
对所述唯一性为多对一关系的要素三元组采用所述要素三元组中的头要素的置信度
高于预定参数的要素三元组为关系正确的要 素三元组, 则确定置信度不高于预定参数的要
素三元组为关系不 正确的要素三元组。
11.一种地址库构建装置, 其特 征在于, 包括:
第一处理模块, 用于获取原 始地址数据;
第二处理模块, 用于对所述原 始地址数据进行 结构化处 理, 得到结构化的地址数据集;
第三处理模块, 用于对所述结构化的地址数据集进行噪音过滤, 得到去噪后的结构化
地址数据集;
第四处理模块, 用于对所述去噪后的结构化地址数据集进行标准化处理, 得到标准化
的地址数据集。
12.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算权 利 要 求 书 2/3 页
3
CN 114880412 A
3
专利 地址库构建方法和装置
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:31上传分享