京公网安备 11010802034615号
经营许可证编号:京B2-20210330
医疗大数据分析管理系统的设计与科研应用
1 背景
我院半结构化电子病历起用于2005年,至今已积累电子病历近50万份。由于病历完成者主要是进修医和学生,数据质量无法满足科研需求,我们又开发了科研电子病历系统,供科研人员在其中补充录入普通电子病历没有的数据。两个系统共为科研数据中心的数据来源。科研数据中心的应用大大提高了科研工作效率及准确性。但随着数据量和查询维度的增加,数据查询和数据挖掘的速度越来越慢。为此,我们决定引入分布式存储及分布式计算技术,建立医疗大数据分析管理系统,来提高数据处理效率。
2 硬件系统架构
我们采用MongoDB作为存储工具。首先,因为普通关系型数据库的每次操作都会有一致性检查,而MongoDB的设计没有这个步骤,所以MongoDB的存储效率比普通关系型数据库更高。其次,医院总数据量低于5T,综合考虑数据量级及管理成本,没有选择hadoop。而且,MongoDB也考虑了设备故障出现的场景,在设计时就做了容灾和故障转移的方案。
图1 硬件系统架构
如图1所示,客户端连接3台应用服务器,应用服务器主要负责随访、数据采集清洗和科研项目管理等业务。因为做大数据分析,尽管本项目对存储量要求不高,但对I/O及CPU运算速度却要求很高,故设计9台PC服务器用来进行分布式存储及计算,这9台PC服务器由三套副本集组成,以提高存储及计算效率。每个副本集又由三个存储节点组成,每个存储节点各有分工,但数据相互备份,以保证数据安全。
MongoDB的集群部署方案中有三类角色:实际数据存储结点(shard)、配置文件存储结点(config server)和路由接入结点(mongos)。连接的客户端直接与路由结点相连,从配置结点上查询数据,根据查询结果到实际的存储结点上查询和存储数据。
mongos,数据库集群请求的入口,所有的请求都通过mongos进行协调,不需要在应用程序添加一个路由选择器,mongos自己就是一个请求分发中心,它负责把对应的数据请求请求转发到对应的shard服务器上。在此我们考虑部署3台mongos作为请求的入口,防止其中一台宕机后所有的mongodb请求都无法操作。
config server,顾名思义为配置服务器,存储所有数据库元信息(路由、分片)的配置。mongos本身没有物理存储分片服务器和数据路由信息,只是缓存在内存里,配置服务器则实际存储这些数据。mongos第一次启动或者关掉重启就会从 config server 加载配置信息,以后如果配置服务器信息变化会通知到所有的 mongos 更新自己的状态,这样 mongos 就能继续准确路由。在此我们考虑部署3台config server 配置服务器,就算其中一台宕机, mongodb集群仍然可用。
shard,实际的数据存储节点,把既往一台服务器存储的数据分散到3台存储,不仅存储空间大大的扩展,同时硬盘的读写,网络的IO、CPU和内存都得到很大的扩展。在Mongodb集群中只要设置好了分片规则,通过mongos操作数据库就能自动把对应的数据操作请求转发到对应的分片机器上。同时每个分片有3台服务器组成副本集(Replica Set) ,保证同一份数据存储三份。
3 软件系统架构
院内医疗数据大量分散存储在HIS、LIS、EPR、PACS等子系统中,院外数据主要存储在随访系统中。这些数据具有多源相关性、异构性、海量高速性的特点,有效的数据整合是大数据分析的前提。首先,所有子系统数据通过医院系统集成平台进行采集,然后通过解析、映射、标准化等手段进行加工处理,最后存储于数据仓库中。数据仓库中的数据通过聚合统计、结构化、归一等技术手段,为大数据查询、挖掘、随访、科研项目管理等应用系统提供数据支撑,具体如图2所示。
图2 软件系统架构
4 应用效果分析
我院科研大数据分析管理系统启用后效果明显,到目前为止已建立20个专业科研数据库,支持了15个科研项目。完成各类科研查询200余项次,发表论文上百篇,其中SCI文章数十篇。科研工作绩效长期在北京市医管局系统名列前茅。科研人员普遍反映工作效率有很大改善。
5 目前存在的不足
5.1数据分析与建模中存在的问题 首先,医疗信息系统通常不是为了科研和数据分析设计的。从数据分析的角度看,医疗数据通常比较复杂,医疗数据建模与医疗业务流程关系密切,需要不同领域的知识,包括医学、生物统计学、流行病学和信息学等。在某些涉及基因疗法的医学数据中,还需要有基因学领域的专家。仅凭HIS厂商是无法实现的。因此如何协调好各领域专家,建立行之有效的数据模型是项目成败的关键。
5.2 医学自然语言处理难度大,影响数据质量 由于大量详细的病人信息以文本形式存储,而文本描述的信息通常存在歧义和很多非标准化描述,如何把这些非结构化数据转化为统一的结构化数据是医学信息处理的重要步骤。自然语言处理是解决方案之一。将非结构化医疗数据转化为结构化数据需要一系列医学自然语言处理技术,包括:医学名实体识别,名实体自动编码,名实体修饰词识别,时间信息抽取等。作为信息抽取的关键技术,医学信息抽取一直是医学自然语言处理的研究热点。
5.3 病案质量欠佳 科研数据中心的数据是需要经过结构化、标准化处理后才能存储的。这些数据要求以病例个体为单位,以时间为线索,按照开放的标准架构进行组织存储,如HL7、CDA,保证病例数据的可用性和可扩展性。提供灵活的数据检索能力,方便查找符合条件的病例,并通过数据输出接口将数据导出成为标准的,可供第三方平台处理的数据格式。
临床科研对病案质量要求更高,低质量的病案会直接导致临床科研结果的偏差。因此,严谨的病历书写规范及数据校验,对每一个数据元素进行标准化定义,是必不可少的步骤。
5.4 患者提供随访数据的依从性有待提高 随访数据对于医学科研的意义不言而喻。在实践过程中,我们发现心脑血管疾病人群大多为老年人,而老年人对于电子设备操作不熟练,影响了数据采集的及时性和准确性。未来应通过可穿戴设备、远程会诊、异地医疗机构信息系统互联互通等方式提高患者,特别是外地患者随访的依从性。
6 结论与展望
医疗卫生行业的数据资源为大数据技术应用提供了条件。目前医疗大数据的相关标准与软件应用等研究仍处在起步阶段,开拓空间大,提供机会多,但也面临诸多现实问题。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15在统计学领域,二项分布与卡方检验是两个高频出现的概念,二者都常用于处理离散数据,因此常被初学者混淆。但本质上,二项分布是 ...
2025-12-15在CDA(Certified Data Analyst)数据分析师的工作链路中,“标签加工”是连接原始数据与业务应用的关键环节。企业积累的用户行 ...
2025-12-15在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05