(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210234178.7
(22)申请日 2022.03.09
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 蒋雪涵
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 廖慧贤
(51)Int.Cl.
G16H 10/60(2018.01)
G06F 40/289(2020.01)
G06F 40/242(2020.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 16/951(2019.01)
G06F 16/35(2019.01)
(54)发明名称
医疗数据处理方法和装置、 电子设备及存储
介质
(57)摘要
本申请提供了一种医疗数据处理方法和装
置、 电子设备及存储介质, 属于人工智 能及数字
医疗技术领域。 该方法包括: 获取原始医疗数据
中的第一医疗数据、 第二医疗数据; 对第一医疗
数据进行分词处理, 得到病情字符; 根据医学词
典和病情 字符构建目标病情共现矩阵; 将第二医
疗数据映射至预设向量空间, 得到第一文本向
量; 将第一文本向量与预设随机扰动因子进行拼
接, 得到第二文本向量; 通过文本理解模型对第
一文本向量、 第二文本向量进行语义分析, 得到
第一文本隐藏特征、 第二文本隐藏特征; 通过病
情特征、 第一文本 隐藏特征、 第二文本 隐藏特征
计算病情词组的损失值, 并根据损失值得到病情
表征数据。 本申请能够提高处理医疗 数据的准确
性。
权利要求书2页 说明书15页 附图5页
CN 114613462 A
2022.06.10
CN 114613462 A
1.一种医疗数据处 理方法, 其特 征在于, 所述方法包括:
获取原始医疗数据; 其中, 所述原 始医疗数据包括第一医疗数据、 第二医疗数据;
对所述第一医疗数据进行分词处 理, 得到病情字符;
根据预设的医学词典和所述病情字符构建目标病情共现矩阵, 其中, 所述目标病情共
现矩阵包括病情词组和所述病情词组对应的病情特 征;
将所述第二医疗数据映射至预设的向量空间, 得到第一文本向量;
将所述第一文本向量与预设的随机扰动因子进行拼接处 理, 得到第二文本向量;
通过预先训练 的文本理解模型对所述第 一文本向量进行语义分析, 得到第 一文本隐藏
特征, 并通过所述文本理解模型对所述第二文本 向量进行语义分析, 得到第二文本隐藏特
征;
通过所述病情特征、 所述第 一文本隐藏特征、 所述第 二文本隐藏特征, 计算所述病情词
组的损失值, 并根据所述损失值, 得到病情表征 数据。
2.根据权利要求1所述的医疗数据处理方法, 其特征在于, 所述对所述第 一医疗数据进
行分词处 理, 得到病情字符的步骤, 包括:
根据预设的文本类别标签对所述第一医疗数据进行分词处理, 得到多个病情标签字
段;
对所述病情标签字段进行分割处 理, 得到所述病情字符。
3.根据权利要求1所述的医疗数据处理方法, 其特征在于, 所述根据预设的医学词典和
所述病情字符构建目标病情共现矩阵的步骤, 包括:
根据所述病情字符遍历所述医学词典, 得到预设共生矩阵对应的赋值 参数;
根据所述赋值 参数对所述预设共生矩阵进行 元素填充, 得到初始病情共现矩阵;
对所述初始病情共现矩阵进行归一 化处理, 得到所述目标病情共现矩阵。
4.根据权利要求1所述的医疗数据处理方法, 其特征在于, 所述将所述第 二医疗数据映
射至预设的向量空间, 得到第一文本向量的步骤, 包括:
获取所述向量空间的特 征维度参数;
根据所述特征维度参数将所述第 二医疗数据映射至所述向量空间, 得到所述第 一文本
向量。
5.根据权利要求1所述的医疗数据处理方法, 其特征在于, 所述文本理解模型包括嵌入
层、 卷积层、 池化层以及 全连接层, 所述通过预先训练的文本理解模 型对所述第一文本向量
进行语义分析, 得到第一文本隐藏特征, 并通过所述文本理解模型对所述第二文本 向量进
行语义分析, 得到第二文本隐藏特 征的步骤, 包括:
通过所述嵌入层对所述第一文本向量进行词嵌入处理, 得到第一文本嵌入向量, 并通
过所述嵌入层对所述第二文本向量进行词嵌入处 理, 得到第二文本嵌入向量;
通过所述卷积层对所述第一文本嵌入向量进行卷积处理, 得到第一文本卷积向量, 并
通过所述卷积层对所述第二文本嵌入向量进行 卷积处理, 得到第二文本卷积向量;
通过所述池化层对所述第一文本卷积向量进行池化处理, 得到第一文本池化向量, 并
通过所述池化层对所述第二文本卷积向量进行池化处 理, 得到第二文本池化向量;
通过所述全连接层的预测函数对所述第 一文本池化向量进行语义分析, 得到所述第 一
文本隐藏特征, 并通过所述预测函数对所述第一文本池化向量进行语义分析, 得到所述第权 利 要 求 书 1/2 页
2
CN 114613462 A
2二文本隐藏特 征。
6.根据权利要求1至5任一项所述的医疗数据处理方法, 其特征在于, 所述通过所述病
情特征、 所述第一文本隐藏特征、 所述第二文本隐藏特征, 计算所述病情词组的损失值, 并
根据所述损失值, 得到病情表征 数据的步骤, 包括:
根据所述病情特征、 所述第一文本隐藏特征、 所述第二文本隐藏特征以及预设的损 失
函数, 计算所述损失值;
根据所述损失值, 计算所述文本理解模型的模型损失值;
根据所述模型损失值, 对所述病情词组进行筛 选处理, 得到所述病情表征 数据。
7.根据权利要求1至5任一项所述的医疗数据处理方法, 其特征在于, 在所述通过预先
训练的文本理解模型对所述第一文本 向量进行语义分析, 得到第一文本隐藏特征, 并通过
所述文本理解模型对所述第二文本向量进行语义分析, 得到第二文本隐藏特征的步骤之
前, 所述方法还 包括预先训练所述文本理解模型, 具体包括:
获取样本医疗数据; 其中, 所述样本医疗数据为文本数据;
将所述样本医疗数据输入至所述文本理解模型中;
通过所述文本理解模型对所述样本医疗数据进行 特征提取, 得到样本病情特 征;
将所述样本病情特 征与所述随机扰动因子进行拼接处 理, 得到样本病情特 征向量;
通过所述文本理解模型的损失函数计算所述样本病情特 征向量之间的噪声标准差;
根据所述噪声标准差对所述损失函数进行优化, 以更新所述文本理解模型。
8.一种医疗数据处 理装置, 其特 征在于, 所述装置包括:
数据获取模块, 用于获取原始医疗数据; 其中, 所述原始医疗数据包括第一医疗数据、
第二医疗数据;
分词模块, 用于对所述第一医疗数据进行分词处 理, 得到病情字符;
矩阵构建模块, 用于根据预设的医学词典和所述病情字符构建目标病情共现矩阵, 其
中, 所述目标病情共现矩阵包括病情词组和所述病情词组对应的病情特 征;
映射模块, 用于将所述第二医疗数据映射至预设的向量空间, 得到第一文本向量;
拼接模块, 用于将所述第一文本向量与预设的随机扰动因子进行拼接处理, 得到第二
文本向量;
语义分析模块, 用于通过预先训练的文本理解模型对所述第一文本向量进行语义分
析, 得到第一文本隐藏特征, 并通过所述文本理解模型对所述第二文本向量进 行语义分析,
得到第二文本隐藏特 征;
计算模块, 用于通过所述病情特征、 所述第一文本隐藏特征、 所述第二文本隐藏特征,
计算所述病情词组的损失值, 并根据所述损失值, 得到病情表征 数据。
9.一种电子设备, 其特征在于, 所述电子设备包括存储器、 处理器、 存储在所述存储器
上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通
信的数据总线, 所述程序被所述处理器执行时实现如权利要求1至7任一项所述的医疗数据
处理方法的步骤。
10.一种存储介质, 所述存储介质为计算机可读存储介质, 用于计算机可读存储, 其特
征在于, 所述存储介质存储有一个或者多个程序, 所述一个或者多个程序可被一个或者多
个处理器执行, 以实现权利要求1至7中任一项所述的医疗数据处 理方法的步骤。权 利 要 求 书 2/2 页
3
CN 114613462 A
3
专利 医疗数据处理方法和装置、电子设备及存储介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:21上传分享