大数据在医学中的应用思考
二十一世纪是数据爆炸的时代,医学也不例外。在信息时代,医学在广度和深度方面日新月异,循证医学深入人心,信息化医疗迅速发展。另一方面,计算机技术的飞速发展使得海量存储成为可能,成本不断下降。医学知识、医学信息呈现几何级数增长。“大数据”(big data)并不是一个很新的名词,在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日;历史上的数据库、数据仓库、数据集市等信息管理领域的技术,从某种意义上说也是为了解决大规模数据的问题。近年来由于互联网和信息行业的发展,大数据引起了人们的关注。
大数据的应用目前主要集中在企业经营决策领域。医疗健康是大数据应用的又一新领域,但在医学中的应用的案例尚为数不多。本文就大数据在临床医学中的应用及其应用中可能出现的问题作简要分析。有关大数据的计算机方面存储技术、分析数理模型、商业应用、软件分析等等均不在本文讨论范围之内。
大数据是什么
大数据指的是巨大的数据量无法通过目前主流软件工具,在合理时间内达到提取、管理、并整理成为有用信息。大数据到底有多大?有人估算全球平均每人产生200GB以上的数据。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。信息行业常用“4V”来总结大数据的特点:volume(大量)、velocity(高速)、variety(多样)、veracity(真实性)。毫无疑问,人们更重视的是大数据的value(价值)。大数据对于投资者而言无非是资产和金钱的代名词。如评估机构评定Facebook上市的有效资产大部分为社交网站的数据。因此,在某种程度上可以认为,大数据是一种新技术、新理念,也是一种新产业:通过“加工”实现数据的“增值”。
关于大数据的应用,“大数据商业应用第一人”维克托·迈尔-舍恩伯格在其《大数据时代》一书中举例甚多,主要是通过找出一个关联物并监控它,就可以预测未来。比如Google如何利用搜索记录进行数据挖掘从而预测流感爆发趋势、亚马逊商店利用购买和浏览记录数据进行针对性购买推荐以提升销售量等等。
我国医学大数据的产生背景
既往我国大多是医疗机构均采用纸质文件记录医疗数据及医疗活动,这些纸质文件数据属于非结构化数据,利用起来非常困难,虽然早就有巨大的数据量,但无法利用。近年来,我国卫生行政部门大力推进以健康档案、电子病历和公共服务信息平台为基础的区域卫生信息化建设工作。2010年“十二五”卫生信息化建设工程规划编制工作初步确定了我国卫生信息化建设路线图。随着卫生信息化建设的不断成熟,医疗相关的大数据也在急剧增加。医院信息管理系统(HIS),主要包括电子病历信息系统(医嘱、病程记录、护理记录等)、实验室信息管理系统(检验报告)、医学影像系统(各种医学影像如MRI、CT、X光片等),这些系统几乎每分每秒都在产生电子化数据,数据量实在是太大、增长太快,数据量从MB到GB,从TB 到PB,对数据处理的实时性、有效性提出更高要求,传统的分析技术无法应付。
医疗大数据的价值及应用前景
面对如此巨大的信息量,如何衡量信息的价值,及时有效地筛选出对医疗工作有用的信息成为重要课题。在我国,庞大的患者数量使中国跃居世界上拥有潜在规模最大临床数据资源的国家,如何有效地存储并利用数据的问题更为突出。大数据的应用可产生很高的卫生经济价值。中国工程院院士、国家863计划监督委员会副主任、国家物联网标准化专家委员会组长邬贺铨赞同“大数据是新财富,价值堪比石油”的观点,他认为“医疗大数据具体可应用在临床诊断、远程监控、药品研发、防止医疗诈骗等方面。”他认为,对病人的大数据进行分析,可以精准地分析病人的体征、治疗费用和疗效数据,可避免过度治疗。通过进一步比较各种治疗措施的效果,医生可更好地确定临床最有效、效益最好的治疗方法。有人提出应用大数据对制定预防艾滋病的方案有一定的价值。人们还注意到在中医方面也可能有潜在的应用。随着人们健康意识的不断提高,新技术、新药物的不断涌现,二十一世纪也是医疗支出不断攀升的时代。目前在整个医疗管理、医学界方面都在经历着一场又一场的变革,以适应人民群众日益增长的健康需求及国家对卫生经济学成本效益的要求。
总的来说,大数据在医疗中的应用主要有以下几个方面:1)发现新知识、新规律:在临床工作和科学研究中,我们可获取大量实验样品、组织切片、基因芯片的数据。对这些前所未有的大量数据进行挖掘,可能有机会发现与疾病相关的新靶点或新分子标记物。2)制定个性化治疗方案:同样道理,整合不同来源的数据信息包括来自临床治疗、基因组测序、组织形态的大数据分析使为每个患者量身定制治疗方案成为可能,为个性化医学(personalizedmedicine)带来新的动力。3)推动循证医学的二次发展:传统而言,临床医生往往根据其具体背景和经验作出诊断和治疗。采用大数据进行统计分析,作出更为精确的临床诊断和发现切实可行的治疗方案,也是循证医学的体现。
医学大数据时代的数据管理及整合
然而,大数据在医学的应用中,离不开一个核心问题,那就是数据源。上文所述的这些方方面面的大数据医学应用,归根结底需要结局(outcome)方面的数据。没有结局数据,也就无法评判治疗方案的好坏,利用大数据也就成为空谈。然而,由于种种原因,这方面的数据常常不完整。特别是药物的疗效、患者生活质量、肿瘤患者的生存状况等等,常常缺乏相关信息,或信息没有标准化而无法利用。因此,医学大数据的管理首先要解决数据缺失的问题。
有效的随访是获取结局数据的主要方法。笔者所在的中山六院的单病种数据库始建于1994年,目前包括有结直肠癌、胃癌、炎症性肠病、腹腔镜等单病种临床数据库,记录完善的临床资料,并成立了随访办公室,有专职的随访人员对患者进行前瞻性随访,定期通过电话、信件等联系方式跟踪,随访率达到98%以上。
随访数据,尤其是肿瘤患者的生存状况,作为疗效数据的一个部分,具有相当大的研究分析价值。在大数据时代,如何设计完善合理的随访流程,保证有效地收集随访数据,保证随访数据完整时值得每个数据库管理者思考的重要问题。目前我院的随访体系包括定期通过电话、信件等联系方式跟踪,设置随访人员可从系统上浏览到病患的相关资料(一般资料、手术资料、化疗资料、放疗资料、备注等)。住院病人术后返院随诊,可以得知患者复发、转移的情况。然而,在相当多的单位,甚至包括我院在过去的随访系统也存在很多问题,比如患者回院治疗、看门诊等,患者离院后病历就随之而去,因而导致大量的关键数据流失。数据的缺失,是很多数据成为垃圾。
另一方面,医学大数据的管理还要解决数据孤岛的问题。在传统模式下,数据多数是由不同的应用程序搜集到的,存储格式不一,无法彼此兼容、无法整合,各个数据库就像一个个相互隔离的岛屿,由此产生了“数据孤岛”的概念。简单举例:比如我国人口死亡登记系统实际上保存着大量的、相对准确的人口死亡信息,包括死亡日期和死亡原因等,这些数据对于评价临床医疗结局无疑是宝贵的原始资料。但是由于各种原因,这部分数据与医院的医疗方面的数据至今无法整合,令人惋惜。这方面可以借鉴美国SEER数据库(Surveillance、Epidemiology、End Results)的经验。该数据库在美国国立癌症中心(NCI)的管理下,能够把各种数据资源有效整合,从而产生大量有意义的临床统计分析数据,如尸检报告、细胞学检查报告、死亡证明、医院记录、随访记录、讣告、肿瘤报告、病理报告、放疗报告、手术信息等等。我国在这方面也有很长的路要走。
产生数据孤岛的主要原因是信息储存的标准和系统建设不统一,勉强整合也会产生无法辨别数据质量的问题,产生“数据污染”。在大数据时代,数据不仅仅表现为存储容量大,而且表现在数据来源更为广泛,目前已经从以前单一的纸质数据,增加了电子化病历数据、便携式设备产生的数据(如iPad、iPhone等)以及可穿戴设备(如可检测生命体征或其他生物学特征的腕表)等等。因此,在大数据时代,更应该重视数据的前瞻性管理,而不能只是满足于亡羊补牢式的数据治理。首先需要制定统一的数据存储内容的基本规范,比如根据我国人口众多的特点,采用“姓名+身份证”作为识别每一例患者的关键信息,即在任何一个数据集里,每一条记录必须包含这两个信息,以便各个数据库之间进行合并。其次是在每个数据库建立时就制定每个数据的标准定义。说到数据整合,医学科研人员很容易想到meta分析。大数据的数据整合与meta分析当然不是一个范畴的问题,但也有其共性。在进行meta分析时碰到的一个极为重要的问题就是变量的定义是否统一,这直接关系到文献的纳入与剔除。此问题非常普遍,例如有文献指出,在已发表的医学论著中anastomotic leak(吻合口瘘)就有56种不同的定义。同样道理,在大数据时代,进行数据合并也要注意这个问题,不能将苹果与橙子作比较,更不能将两者合并。因此,在数据库的建设初始就要对每个变量进行严格定义,这点在医学数据中尤为突出,与其他的企业管理、财务信息的数据库不一样;最后,要制定各单位、各部门之间数据交换的基本规则,互惠互利是前提和基本原则。
大数据的争议
更多的数据就意味着更多的信息吗?答案不是绝对的。一百万条记录包含的信息量也许与1条记录相差无几。大数据的优势不能简单理解为就是“大”,“大”不一定比“小”好。大量数据的出现不可避免也带来了很多质疑。如上文所述的数据孤岛、非结构化数据(指手写文书、照片、影像、录像等)的处理、数据标准化等问题。另外,数据分析方式仍为传统的统计模型。神经网络、SVM、聚类算法等机器学习界10-20年前提出的,以及统计学界早已成熟的回归分析、相关性分析等,现在依然是处理大数据的主流技术。
重视数据质量、避免数据污染也是极为重要的一个方面。传统的统计学分析强调数据抽样的无偏性、随机性、代表性。然而在大数据时代,人们容易简单地认为大数据是全样本,就不用去管数据的质量,只要把收集的“大数据”简单统计一下就可以了,这无疑是非常危险的一个趋势。希望从毫无质量可言的数据中发掘到有用的信息无疑于缘木求鱼。数据库的数量和挖掘到的信息量没有任何关系,进进出出的都是垃圾。
小结
总的来说,大数据的出现一定程度上满足了人们对信息量的追求,笔者认为,大数据有以下几个创新:首先,对于一些以前看来杂乱无章的无用数据,大数据似乎能够化腐朽为神奇。其次,大数据的出现使人们不再满足于抽样计算,而追求总体本身。最后,海量数据结合飞速发展的计算机技术以及统计学方法,可以更精确、更全面地预测临床疗效、临床结局、治疗费用等。然而,正如上文所提到的,大数据也有其显而易见的局限性。对于大部分临床医疗人员来说,目前大数据仍然是比较新鲜的事物,也没有大数据在临床医疗中成功应用的显著案例。因此,我们既要保证有开放的思维和态度,也要有慎思明辨的意识,不要趋之若鹜,从现在开始进行数据治理,重视数据的前瞻性管理,这样才能够淘沙捡金,发掘出对提高人们健康水平和临床疗效的有用信息。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30