安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210350155.2 (22)申请日 2022.04.02 (71)申请人 广州故新智能科技有限责任公司 地址 510000 广东省广州市海珠区新港中 路397号自编79号201房(仅限办公) (72)发明人 马文翔 朱乐为 崔子锋 (74)专利代理 机构 广州市百拓共享专利代理事 务所(特殊普通 合伙) 44497 专利代理师 刘静 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/215(2019.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06Q 10/10(2012.01)G06Q 40/00(2012.01) (54)发明名称 一种用于金融长文本复核系统的文本格式 审核模块 (57)摘要 一种用于金融长文本复核系统的文本格式 审核模块, 其用于对金融长文本的表格、 目录等 格式进行复核, 判断该金融长文本的连续易读 性, 其特征在于: 所述模块包括一预处理模块, 一 序号获取模块, 一序号匹配模块, 一连续性审核 模块, 一引用 审核模块和一输出模块。 经过上述 模块的配合, 可以快速对金融长文本进行格式审 核, 基于自然语言处理技术, 利用人工智能直接 输出审核结构, 极大降低了审核所需时间, 审核 效率高, 审核准确率好, 防止出现工作人员因修 改文档删除或增加了一些段落却忘记修改段落 前的序号, 由此引起目录不连续或引用的目录不 存在的现象, 系统主要检测这部分的格式错误给 用户提示, 保证文档的连续 易读性。 权利要求书2页 说明书5页 附图3页 CN 114691919 A 2022.07.01 CN 114691919 A 1.一种用于金融长文本复核系统的文本格式审核模块, 其用于对金融长文本的目录、 标题格式进 行审核, 判断该金融长文本的连续性, 其特征在于: 所述文本格式审核模块包括 一预处理模块、 一序号获取模块、 一序号匹配模块、 一连续性审核模块、 一引用审核模块和 一输出模块; 其中, 所述预处理模块对输入的金融长文本进行文本数据划分后, 根据NLP模型解析文本数 据获得段落数据、 标题数据、 表格数据及其之 间的数据关系, 该预 处理模块还读取文本目录 结构, 根据文本目录结构对标题数据进 行层级格式化; 该预 处理模块将解析后的段落数据, 标题数据和表格数据按预定义的数据模型组织输出并保存至数据库中; 所述序号获取模块用于获取标题序号和序号格式并进行序号分类, 所述标题序号的类 别包括目录标题序号, 正文标题序号以及附录表格标题序号; 所述序号匹配模块用于将序号获取模块获取的序号与序号前后的特征词进行匹配并 保存; 所述连续性审核模块用于审核所述序号获取模块获取的目录标题序号、 正文标题序号 以及附录表格标题序号, 并将该些序号判定为连续性序号或非连续性序号, 同时对标题数 据的格式及对应序号的格式进行审核; 所述引用审核模块根据 所述序号匹配模块输出的序号与 特征词关系, 用于对文本数据 中引用的序号审核其引用准确性; 所述输出模块将所述连续 性审核模块和所述引用审核模块的审核结果输出并保存。 2.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于: 所述预处理模块还包括一文本转换单元, 用于将PDF格式的金融长文本转换为图片格式文 本, 将所述图片格式文本进行拉伸和二 值化处理后根据CV模型获取文本数据。 3.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于: 所述连续性审核模块包括一比较单元, 用于比较相邻的同一格式标题的序号的连续性, 并 判定所述序号的为连续序号或非连续序号。 4.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于: 所述输出模块包括一显示单元和一标记单元, 所述显示单元用于 以标注形式显示审核结 果; 所述标记单元用于对文本出现问题的序号数据或标题数据进行标识, 并在所述显示单 元中显示。 5.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于: 所述NLP模型为预训练模型, 由大规模通用语料和金融语料训练获得。 6.根据权利要求1所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于, 所述文本格式审核模块 通过以下步骤处 理金融长文本: S1: 输入P DF金融长文本; S2: 使用N LP模型对金融长文本进行 预处理, 预定格式保存处 理后数据; S3: 获取标题序号和序号格式, 进行序号分类; S4: 将序号与其前后的特 征词进行匹配保存; S5: 审核标题序号连续 性、 标题格式和对应序号格式; S6: 审核文本数据中引用的序号是否准确; S7: 将S5与S6步骤中的审核结果以预定义格式输出和保存。权 利 要 求 书 1/2 页 2 CN 114691919 A 27.根据权利要求6所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于, 所述使用N LP模型对金融长文本进行 预处理的具体步骤为: S20: 将PDF格式金融长文本转化为图片格式文本, 根据CV模型检测所述图片格式文本 获取表格、 页眉、 页脚、 图片、 公 式数据, 提取并组织表格、 页眉、 页脚、 图片、 公 式数据以外的 文字数据; S21: 根据NLP模型将所述文字数据划分为段落数据和标题数据, 获取段落数据中表格 数据; S22: 对段落数据和标题数据进行数据清洗, 数据长度切割和定位数据提取位置, 根据 NLP模型解析处理后的段落数据和标题数据, 提取数据关系后按预定义的数据模型输出保 存; S23: 对表格数据进行数据清洗和集合划分, 根据NLP模型解析处理后的表格数据并提 取数据关系, 按预定义的数据模型输出保存; S24: 获取文本目录结构; S25: 读取S23的标题数据, 进行 标题层级格式化。 8.根据权利要求7所述的用于金融长文本复核系统的文本格式审核模块, 其特征在于, 所述标题层级格式化方法为: S250: 确定标题数据间的标题领属关系; S251: 根据所述标题领属关系确定标题层级; S252: 对不同层级标题进行格式化。权 利 要 求 书 2/2 页 3 CN 114691919 A 3
专利 一种用于金融长文本复核系统的文本格式审核模块
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:46:58
上传分享
举报
下载
原文档
(395.0 KB)
分享
友情链接
NY-T 3692-2020 水稻耐盐性鉴定技术规程.pdf
数字安全产业大数据白皮书(2022年).pdf
奇安信 2022网络安全人才市场状况研究报告.pdf
DB31-T 1240.1-2020 公共数据共享交换工作规范 第1部分:平台建设和运行管理要求 上海市.pdf
华为+大模型和智能汽车的预见-2023-09-智能网联.pdf
T-ZZB 1671—2020 竹木纤维装饰板.pdf
GB-T 42249-2022 矿产资源综合利用技术指标及其计算方法.pdf
DB14-T 2624—2022 五角枫播种育苗技术规程 山西省.pdf
GB-T 32974-2016 钢铁行业蓄热式工业炉窑热平衡测试与计算方法.pdf
T-CFAS 0001—2019 信息安全技术 开源软件安全使用规范.pdf
GB-T 30656-2023 碳化硅单晶抛光片.pdf
GB-T 29243-2012 信息安全技术 数字证书代理认证路径构造和代理验证规范.pdf
T-XMYXH 0001—2023 厦门市医疗机构“规范药房”管理指南.pdf
GB-T 34690.10-2018 印刷技术 胶印数字化过程控制 第10部分:评价方法.pdf
T-DZJN 101—2022 数据中心电力模块预制化技术规范.pdf
资产管理 数据资产管理指南.pdf
DB11-T 1652-2019 空气源热泵节能监测 北京市.pdf
SY-T 6246-2022 可控震源使用技术规范.pdf
T-GDACM 0116—2022 中医护理门诊建设规范.pdf
TB-T 1495-2020 弹条Ⅰ型扣件.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(395.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。