安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111479325.9 (22)申请日 2021.12.0 6 (71)申请人 上海应用技 术大学 地址 200235 上海市徐汇区漕宝路120 -121 号 (72)发明人 刘云翔 张桂鑫 原鑫鑫 熊婷婷  吴子庚  (74)专利代理 机构 上海汉声知识产权代理有限 公司 3123 6 代理人 黄超宇 胡晶 (51)Int.Cl. G16H 50/50(2018.01) G16H 50/70(2018.01) G16H 10/60(2018.01) G06N 20/00(2019.01)G06K 9/62(2022.01) G06F 16/215(2019.01) (54)发明名称 一种基于大数据分析的结直肠癌预测方法 (57)摘要 本发明公开了一种基于大数据分析的结直 肠癌预测方法, 通过收集某医院病人体检数据, 进行数据整理, 对获取的人员的医疗 数据进行处 理以获得所述人员的医疗特征数据。 通过预设分 析模型处理所述医疗特征数据, 与医学理论相结 合进行数据预处理提取合适的特征。 根据结直肠 癌患者的特征不同, 应用数据挖掘中决策树算法 和logistic回归算法对不同体检指标之间的重 要度进行分析研究, 可以确定人员的癌症发病风 险。 基于此, 可对人员进行健康评估和健康干 预, 以实现结直肠癌症的预测 和预防。 权利要求书1页 说明书4页 附图2页 CN 114283944 A 2022.04.05 CN 114283944 A 1.一种基于大 数据分析的结直肠癌预测方法, 其特 征在于, 包括如下步骤: 步骤S1: 通过医院体检数据收集获取结直肠患者的各项体检指标, 选取具有代表性的、 多维的指标 特征来建立自定义的特 征数据库; 步骤S2: 对步骤S1中所获得的特 征指标进行相应的数据预处 理; 步骤S3: 对步骤S2中所获得的特征指标继续进行特征选择和特征提取, 采用PCA算法结 合实际医学相关知识对多维数据进行降维处 理, 提取出重要度高的指标 特征; 步骤S4: 采用决策树、 lo gistic回归算法建立模型对病人患结直肠癌的概率进行预测, 将步骤S3所提取 的特征作为模型的输入, 通过不断的调整参数进行训练测试, 最终在优化 好的模型 上预测未知病人的结直肠癌预测。 2.根据权利要求1所述的一种基于大数据分析的结直肠癌预测方法, 其特征在于, 所述 步骤S1中患结直肠癌的指标 特征包括病人体重、 身高、 疾病史、 生活习惯。 3.根据权利要求1所述的一种基于大数据分析的结直肠癌预测方法, 其特征在于, 所述 步骤S1中把收集到的数据构建成自定义的特征指标数据库, 方便对病人体检数据的存储和 后续使用。 4.根据权利要求1所述的一种基于大数据分析的结直肠癌预测方法, 其特征在于, 所述 步骤S2中对原 始数据的预处 理包括: 数据清洗、 异常数据剔除。 5.根据权利要求1所述的一种基于大数据分析的结直肠癌预测方法, 其特征在于, 所述 步骤S3中在对高维数据进行 特征选择与特 征提取时采用PCA算法。 6.根据权利要求1所述的一种基于大数据分析的结直肠癌预测方法, 其特征在于, 所述 步骤S4中决策树 算法包括如下步骤: 步骤S401: 加载处 理好的病人 数据集, 将数据集划分为训练集与测试集; 步骤S402: 选择特征从训练数据中众多的特征中选择一个特征作为当前节点的分裂标 准; 步骤S403: 根据选择的特征评估标准, 从上至下递归地生成子节点, 直到数据集不可分 则停止决策树停止生长; 步骤S404: 对生成的决策树进行剪枝, 缩小树结构规模、 缓解过拟合。 7.根据权利要求6所述的一种基于大数据分析的结直肠癌预测方法, 其特征在于, 步骤 S401中, 建立模 型前将数据集分为训练集和测试集, 训练集用来训练模型, 测试集用来验证 模型的优劣, 实验时按照7: 3的比例进行 试验。权 利 要 求 书 1/1 页 2 CN 114283944 A 2一种基于大数据分析的结直肠癌预测方 法 技术领域 [0001]本发明涉及医疗数据处理领域, 特别涉及 一种基于大数据分析的结直肠癌预测方 法。 背景技术 [0002]WHO国际癌症研究机构发布的2020年全球最新癌症负担的数据显示, 全世界有超 过193万人被新确诊为结直肠癌, 占全球新确诊癌症人数的9.7%。 在2020年, 中国有超过55 万人新患结直肠癌, 占中 国新确诊癌症人数的  12.2%。 值得注 意的是女性结直肠癌的死亡 人数仅次于肺癌, 已成为中 国女性癌症死亡的第二大原因。 因此, 深入了解结直肠癌的研究 新进展, 对结直肠癌的早诊断、 早治疗、 早预防具有重要意 义。 [0003]同时, 令人沮丧的是, 近年来不断有临床结果和评论揭露: 对于癌症的精准医疗策 略并没有给大多数肿瘤病人带来好处, 肿瘤的精 准治疗仅仅是一个待证明的假设。 然而, 精 准治疗却逐渐使医疗健康的概念发生了本质的变化: 从医疗健康体系以诊断治疗为主, 转 变到以健康保证为主。 也就是说, 在人还没有病的时候, 通过了解他(或她)的健康状况, 预 测其未来的健康发展。 这样的医疗体系以健康预测、 健康评估和健康干预为目的。 [0004]有数据显示, 癌症如果发现的早, 治愈率非常高。 在美国, 结直肠癌1  期和2期的5 年生存率高达89%, 综合所有癌症类型和分期, 2015年癌症总治愈率也有70%, 这里面最主 要的原因是病状发现的早。 在2018年全国肿瘤防治宣传周上, 有权威院士提出我国肿瘤5年 生存率不足发达 国家的一半的原因是, 我国相当一部分肿瘤患者处于中晚期, 到医院治疗 时, 肿瘤已经发生转移, 难以治愈。 因此, 能否在早期发现或预测肿瘤的发生几率, 对控制癌 症病情有至关重要的作用。 [0005]目前, 已有一些运用医疗数据进行癌症诊断的数据处理方案, 但是, 这些数据处理 方案或多或少存在着一些缺陷, 例如, 对于癌症机制的认知不够充分, 医疗数据量不足、 医 疗数据来源不够权威等。 因此, 存在对于一种能够对癌症进行更精准地预测的疾病诊断方 法的需求。 发明内容 [0006]为了克服现有技术中的不足, 本发明提供一种基于大数据分析的结直肠癌预测方 法, 其能够 对特定的医疗特征数据进 行分析, 以确定人员的特定癌症的预测结果, 且基于所 述预测结果, 可对人员进行健康评估和健康干预, 以实现癌症的预测 和预防。 [0007]为了达到上述发明目的, 解决其 技术问题所采用的技 术方案如下: [0008]一种基于大 数据分析的结直肠癌预测方法, 包括如下步骤: [0009]步骤S1: 通过医院体检数据收集获取结直肠患者的各项体检指标, 选取具有代表 性的、 多维的指标 特征来建立自定义的特 征数据库; [0010]步骤S2: 对步骤S1中所获得的特 征指标进行相应的数据预处 理; [0011]步骤S3: 对步骤S2中所获得的特征指标继续进行特征选择和特征提取, 采用PCA算说 明 书 1/4 页 3 CN 114283944 A 3

.PDF文档 专利 一种基于大数据分析的结直肠癌预测方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于大数据分析的结直肠癌预测方法 第 1 页 专利 一种基于大数据分析的结直肠癌预测方法 第 2 页 专利 一种基于大数据分析的结直肠癌预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。