(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210223911.5
(22)申请日 2022.03.07
(71)申请人 阿里健康科技 (中国) 有限公司
地址 100102 北京市朝阳区望京东园四区7
号楼15层15 06室
申请人 中国人民解 放军北部战区总医院
(72)发明人 韩雅玲 李毅 裘淼涵 裴云飞
朱天成 杜金源 胡黎明 宋壹
姚晋伟 袁鹏宇 马荣 李熠轩
范业雪 范乾瑞 姜国成 徐凯
刘海伟 王斌
(74)专利代理 机构 北京三友知识产权代理有限
公司 11127
专利代理师 徐焕 童磊(51)Int.Cl.
G16H 10/60(2018.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06F 16/25(2019.01)
G06F 21/60(2013.01)
G06F 21/62(2013.01)
(54)发明名称
一种病历数据处 理方法、 平台和装置
(57)摘要
本申请提供了一种病历数据处理方法、 平台
和装置, 属于电数字数据处理技术领域, 特别涉
及共享文件的支持领域, 其中, 该方法包括: 获取
非结构化的病历数据; 将所述非结构化的病历数
据进行解析, 得到文本数据; 对所述文本数据进
行结构化, 得到字段形式的结构化数据; 提供对
所述结构化数据进行查找或调用的接口。 通过上
述方案解决了现有的病历数据收集和汇总困难,
所导致的病历数据利用率低下的问题, 达到了有
效提升数据利用率的技 术效果。
权利要求书3页 说明书16页 附图4页
CN 114649074 A
2022.06.21
CN 114649074 A
1.一种病历数据处 理方法, 其特 征在于, 所述方法包括:
获取非结构化的病历数据;
将所述非结构化的病历数据进行解析, 得到文本数据;
对所述文本数据进行 结构化, 得到 字段形式的结构化数据;
提供对所述结构化数据进行查找或调用的接口。
2.根据权利要求1所述的方法, 其特 征在于, 获取非结构化的病历数据, 包括:
从多个医疗信息系统获取非结构化的病历数据;
相应的, 将所述非结构化的病历数据进行解析, 得到文本数据, 包括:
确定获取的非结构化的病历数据所属的医疗信息系统所对应的解析规则;
根据确定的解析规则, 进行解析, 得到文本数据。
3.根据权利要求2所述的方法, 其特征在于, 将所述非结构化的病历数据进行解析, 得
到文本数据, 包括:
获取预设的目标字段集;
根据预设的目标字段集中的各字段, 对所述非结构化的病历数据进行解析, 得到文本
数据。
4.根据权利要求3所述的方法, 其特征在于, 根据以预设的目标字段集中的各字段, 对
所述非结构化的病历数据进行解析, 得到文本数据, 包括:
以预设的目标字段集中的各字段作为目标 标签;
通过路径 表达式抓取 所述非结构化的病历数据中目标 标签下的文本内容;
将抓取的文本内容作为 解析得到的文本数据。
5.根据权利要求1所述的方法, 其特征在于, 对所述文本数据进行结构化, 得到字段形
式的结构化数据, 包括:
获取预设的结构化字段集;
以预设的结构化字段集中的各字段作为数据处理基础, 提取所述文本数据中与预设的
结构化字段集中的各字段关联的数据, 形成以预设的结构化字段集中各字段为主键的结构
化数据。
6.根据权利要求1所述的方法, 其特征在于, 对所述文本数据进行结构化, 得到字段形
式的结构化数据, 包括:
调取预设的医学逻辑 规则;
根据预设的医学逻辑 规则, 对所述文本数据进行分析, 以得到 字段形式的结构化数据。
7.根据权利要求1所述的方法, 其特征在于, 对所述文本数据进行结构化, 得到字段形
式的结构化数据, 包括:
调用预设的实体抽取模型和关系抽取模型, 对所述文本数据进行自然语言处理, 以得
到多个实体和实体之间的关联关系;
将得到的实体和实体之间的关联关系作为字段 形式的结构化数据。
8.根据权利要求7所述的方法, 其特征在于, 将训练得到所述实体抽取模型的表征信
息, 用于训练所述关系抽取模型。
9.根据权利要求7所述的方法, 其特征在于, 在训练得到所述实体抽取模型时得到和所
述关系抽取模型的时候, 对所述 实体抽取模型的损失函数和所述关系抽取模型的损失函数权 利 要 求 书 1/3 页
2
CN 114649074 A
2同时进行优化。
10.根据权利要求7 所述的方法, 其特 征在于, 按照如下 方式训练得到实体抽取模型:
获取样本句子对;
根据预设的标记规则对所述样本句子对进行 标注;
通过掩码对所述样本句子对中的目标 单词进行遮盖;
将标注和遮盖后的样本句子对, 输入实体抽取模型中, 通过上下文信息预测得到被遮
盖的单词, 以进行模型训练。
11.根据权利要求1所述的方法, 其特征在于, 对所述文本数据进行结构化, 得到字段形
式的结构化数据, 包括:
对所述文本数据进行关键词提取;
将提取的关键词作为主键, 形成字段 形式的结构化数据。
12.根据权利要求1所述的方法, 其特 征在于, 获取非结构化的病历数据, 包括:
接收医疗信息系统按照预设上传周期, 通过增量方式上传的非结构化的病历数据。
13.根据权利要求1所述的方法, 其特征在于, 对所述文本数据进行结构化, 得到字段形
式的结构化数据之后, 还 包括:
获取历史存 储的结构化数据;
对历史存 储的结构化数据和当前 得到的结构化数据, 按照预设的数据指标进行汇总。
14.根据权利要求1所述的方法, 其特征在于, 在对历史存储的结构化数据和当前得到
的结构化数据, 按照预设的数据指标进行汇总之前, 还 包括:
对得到的结构化数据进行清洗操作, 其中, 所述清洗操作包括以下至少之一: 剔除脏数
据、 剔除重复数据。
15.根据权利要求1所述的方法, 其特征在于, 对所述文本数据进行结构化, 得到字段形
式的结构化数据之后, 还 包括:
对所述结构化数据建立索引目录, 其中, 所述索引目录用于对所述结构化数据进行搜
索匹配。
16.根据权利要求1所述的方法, 其特征在于, 在获取非结构化的病历数据之前, 还包
括:
获取原始病历数据;
对所述原 始病历数据按照预设的脱敏规则, 进行脱敏处 理;
将脱敏处 理后的病历数据作为非结构化的病历数据。
17.一种病历数据处 理平台, 其特 征在于, 包括:
数据获取层, 与多个医疗信息系统通信, 用于从医疗信息系统获取非结构化的病历数
据;
数据处理层, 用于将所述非结构化的病历数据进行解析, 得到文本数据; 对所述文本数
据进行结构化, 得到 字段形式的结构化数据;
数据应用层, 用于提供对所述结构化数据进行查找或调用的接口。
18.根据权利要求17所述的病历数据处理平台, 其特征在于, 应用于冠心病患 者的数据
处理和整合。
19.一种服务端设备, 包括处理器以及用于存储处理器可执行指令的存储器, 其特征在权 利 要 求 书 2/3 页
3
CN 114649074 A
3
专利 一种病历数据处理方法、平台和装置
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:01上传分享