安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210504861.8 (22)申请日 2022.05.10 (71)申请人 兴业银行股份有限公司 地址 350000 福建省福州市湖东路154 号 申请人 兴业数字金融服 务(上海)股份有限 公司 (72)发明人 张琦 赵学锋 杨红卫 (74)专利代理 机构 上海段和段律师事务所 31334 专利代理师 王丹东 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/242(2019.01) G06F 9/50(2006.01) (54)发明名称 数据检核计算系统及方法 (57)摘要 本发明提供了一种数据检核计算系统及方 法, 涉及数据处理技术领域, 该方法包括: 数据输 入模块: 根据数据源相关信息进行检核数据提 取, 并将检核数据提交给计算核心模块; 代码生 成模块: 将检核数据相关的检核规则转换为可执 行代码, 提交给计算核心模块; 计算核心模块: 接 收检核数据及检核规则编译后的可执行代码, 执 行计算并得到结果; 结果输出模块: 接收计算核 心模块给出的检核结果, 与多种数据存储适配, 完成结果的持久化。 本发明能够 使检核算力根据 工作负载独立进行调整, 使多种后端复用、 共享 同一套检核体系成为可能, 避免重复建设, 节省 科技资源, 且极大推进了系统资源的均衡利用, 提高了计算效率。 权利要求书1页 说明书10页 附图9页 CN 114968995 A 2022.08.30 CN 114968995 A 1.一种数据检核计算系统, 其特 征在于, 包括: 数据输入模块: 根据数据源相关信息进行检核数据提取, 并将检核数据提交给计算核 心模块; 代码生成模块: 将目标检核数据相关的检核规则转换为可执行代码, 提交给计算核心 模块; 计算核心模块: 接收检核数据及检核规则编译、 转换后的可执行代码, 执行计算并得到 结果; 结果输出模块: 接收计算核心模块给出的检核结果, 与多种数据存储适配, 完成结果的 持久化。 2.根据权利要求1所述的数据检核计算系统, 其特征在于, 所述数据输入模块采用独立 的数据结构描述半结构化数据源信息, 实现半结构化检核数据的抽取。 3.根据权利要求1所述的数据检核计算系统, 其特征在于, 所述数据输入模块添加流式 数据抽取 单元, 结果输出模块添加流数据写回单 元, 实现流式数据源适配。 4.根据权利要求1所述的数据检核计算系统, 其特征在于, 将所述代码生成模块放在 Spark驱动器中, 代码生成后再分发到各个执 行器的计算核心模块。 5.根据权利要求1所述的数据检核计算系统, 其特征在于, 所述计算核心模块的模块核 心组件是一个解释 器, 解释器有独立的线程池, 根据算子组合的代数结构, 将可并发的部分 进行拆解, 分别交由不同的线程执 行。 6.根据权利要求5所述的数据检核计算系统, 其特征在于, 所述解释器 内置一套执行信 息收集的单 元, 负责收集计算过程中的信息, 反馈给其 他单元进行运行时优化。 7.一种数据检核计算方法, 其特 征在于, 包括: 数据输入步骤: 根据数据源相关信息进行检核数据提取, 并将检核数据提交给计算核 心步骤; 代码生成步骤: 将目标检核数据相关的检核规则转换为可执行代码, 提交给计算核心 步骤; 计算核心步骤: 接收检核数据及检核规则编译、 转换后的可执行代码, 执行计算并得到 结果; 结果输出步骤: 接收计算核心步骤给出的检核结果, 与多种数据存储适配, 完成结果的 持久化。 8.根据权利要求6所述的数据检核计算方法, 其特征在于, 所述数据输入步骤采用独立 的数据结构描述半结构化数据源信息, 实现半结构化检核数据的抽取。 9.根据权利要求6所述的数据检核计算方法, 其特征在于, 所述数据输入步骤添加流式 数据抽取 单元, 结果输出步骤添加流数据写回单 元, 实现流式数据源适配。 10.根据权利要求6所述的数据检核计算方法, 其特征在于, 将所述代码生成步骤放在 Spark驱动器中, 代码生成后再分发到各个执 行器的计算核心步骤。权 利 要 求 书 1/1 页 2 CN 114968995 A 2数据检核 计算系统及方 法 技术领域 [0001]本发明涉及数据处 理技术领域, 具体地, 涉及一种数据检核计算系统及方法。 背景技术 [0002]数据质量检验、 分析技术支持对业务指标和数据质量进行检查、 监控, 从完整性、 有效性、 及时性、 准确性、 唯一性等五个维度对数据进行分析, 帮助用户及时发现并纠正数 据质量问题, 从而减少损失。 在信息大爆炸的今天, 数据规模越来越庞大, 现有相关技术体 系面临着执 行效率低下等问题的严峻挑战。 [0003]在规模化数据质量检测、 监测中, 常见的解决方案采用S QL及基于数据库产品的二 次开发来描述数据的检查、 核实逻辑(简称检核逻辑或检核规则), 并依赖数据库产品的部 署提供检核算力。 在数据检核领域内, 这种模式存在三大弊端, 具体分析如下: [0004]1、 存算混合架构下系统存储与算力资源的紧耦合问题: 当检核数据存储能力与检 核计算能力的需求不一致时, 传统基于同一数据库部署的存算混合架构将面临两难: 横向 拓展满足算力, 但是浪费存储, 或保持适度存储, 但算力长期得不到满足。 单机数据库则面 临更加艰难的局 面, 单台服务器完全无法满足日益增长的数据对检核算力的需求。 检核引 擎创造了独立部署的计算环境, 实现了存算分离, 即使单机数据库也可根据工作负载拓展 算力, 满足业 务需求。 [0005]2、 数据库产品异构导致无法复用、 共享检核体系的难题: 当检核计算需要实现复 杂逻辑时, 必须依赖数据存储产品进 行二次开 发, 同一套逻辑, 每个产品需要开发各自的实 现, 如果要求彼此计算结果一致, 须另行开展逻辑一致性测试, 浪费大量开发测试资源。 而 检核引擎屏蔽了后端 数据库产品差异, 提供完全一致的运行期环境, 同一套检核环境, 可以 同时对接多个完全异构的数据存 储产品, 最大化复用、 共享检核体系, 节省各类资源。 [0006]3、 通用数据库产品无法利用检核领域知识进行充分优化的难题: 数据检核领域的 一大特点是同一数据源往往含有大量检核规则, 如果每条规则均采用SQL描述, 在计算时, 每条SQL语句都是独立的计算单元, 数据库产品缺乏必 要的信息进 行全局统筹优化, 在 海量 数据规模下, 缓存也近乎失效, 存在极大的IO资源浪费, 随着检核规则数量的增 长, 系统IO 很快会到达瓶颈, 影响整体吞吐量。 检核引擎独有的聚合算法, 只需一次IO即可计算所有同 源规则, 极大的推进了系统资源的均衡利用。 [0007]公开号为CN108920256A的发明专利, 公开了一种检核任务执行方法及装置, 包括: 获取所述待执行的检核任务对应检核信息; 根据所述检核信息判断在已完成的检核任务中 是否存在与所述待执行的检核任务相同的目标检核任务; 及确定在所述已完成的检核任务 中存在所述目标检核任务, 则将目标检核任务对应的执行结果作为所述待 执行的检核任务 的执行结果。 发明内容 [0008]针对现有技 术中的缺陷, 本发明提供一种数据检核计算系统及方法。说 明 书 1/10 页 3 CN 114968995 A 3
专利 数据检核计算系统及方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 07:16:48
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
GB-T 17903.3-2024 信息技术 安全技术 抗抵赖 第3部分:采用非对称技术的机制.pdf
GB-T 37190-2018 管道腐蚀控制工程全生命周期 通用要求.pdf
GB 15083-2019 汽车座椅、座椅固定装置及头枕强度要求和试验方法.pdf
DB34-T 3075-2017 基层政务用户接入电子政务外网技术规范 安徽省.pdf
DB11-T 348-2022 建筑中水运行管理规范 北京市.pdf
SANS 应急响应处理手册 incident-handlers-handbook 英文版.pdf
GB-T 19667.1-2005 基于XML的电子公文格式规范 第1部分总则.pdf
GB-T 39909-2021 科技计划形成的科学数据汇交 通用数据元.pdf
GB-T 9254.1-2021 信息技术设备、多媒体设备和接收机 电磁兼容 第1部分:发射要求.pdf
GB-T 26775-2011 车载音视频系统通用技术条件.pdf
GB T 42460-2023 信息安全技术 个人信息去标识化效果评估指南.pdf
YD-T 3982-2021 数据中心液冷系统冷却液体技术要求和测试方法.pdf
思度安全-DSMM-010 数据处理环境安全管理规范V1.0.pdf
JR-T 0071.1—2020 金融行业网络安全等级保护实施指引 第1部分:基础和术语.pdf
T-CATSI 05002—2020 高压液化气体管束式集装箱专项技术要求.pdf
MZ-T 120-2018 自立式辅助起床架.pdf
逐浪大模型:互联网巨头的AI野望.pdf
GB-T 33647-2017 车用汽油中硅含量的测定 电感耦合等离子体发射光谱法.pdf
上海市网络安全事件应急预案 2019.pdf
GB-T 17569-2021 压水堆核电厂物项分级.pdf
1
/
3
21
评价文档
赞助2.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。