健康大数据分析方法:关联规则算法_数据分析师考试
现在,随着大数据技术和可穿戴健康监测设备技术的不断发展和普及,虚拟临床试验和研究向我们走得越来越近,您看下面的最新案例。
1. 从大数据移动健康平台说起
据《网易新闻》转载《北京青年报》的报道:“3月10日,苹果公司召开2015春季发布会,其中一款全新的医疗应用ResearchKit瞬间聚焦了全球果粉的目光。在新产品的合作伙伴里,首都医科大学宣武医院作为首批并且唯一参与研究计划的中国医疗机构,与各种知名互联网公司一同出现在大屏幕中。”据了解,在此次苹果公司搭建移动健康平台,使移动医疗模式“入驻”可穿戴设备的设计中,曾做过不少前期调研。在选择什么样的疾病作为首先的切入点时,综合考虑了病人数量、便于监测与管理、适合移动医疗模式等因素后,决定将包括帕金森在内的五种疾病监测APP首批推出。
帕金森病(PD)又名震颤麻痹,是最常见的神经退行性疾病之一。流行病学显示,患病率为15~328/10万人口,大于65岁人群约1%;发病率为10~21/10万人口/年。PD病因及发病机制尚未明确,可能与社会因素、药物因素、患者因素等有关,本病最大的危害在于患者生活质量严重下降,生活不能自理,并常出现多种并发症。看到以上的数据,我们不难理解为什么选择帕金森病作为首选的五种疾病之一进行大规模监测了。
“依托苹果手机和iwatch平台,这套设备可以动态监测追踪病人的震颤、步态、动作快慢、发声变化、基本生命体征以及生活相关信息。”通俗来说,作为疾病研究的工具,这套系统可以打破原本帕金森发病不定时的治疗瓶颈,对于在诊室里没有发病的患者,可通过穿戴式设备的随时监测,动态地、连续地记录发病时的数据,方便医生收集,并提出更好的治疗方案。通过这项研究,不仅可以解决以往没有客观的手段可以对疾病的轻重、病情的发展、药物干预是否有效等问题进行测量的缺憾,同时也可以更好地在提早发现帕金森预兆上发挥作用。“通过装置反馈的数据,如果一些征兆不断地向前发展,可以提早预警患者,该做什么检查和治疗,避免错过最好的治疗时机。”
我们相信,今后越来越多的类似项目会开展起来,原先的科研项目中未得到充分代表的群体将得以体现,数据收集速度将大幅加快、成本也会大幅下降,参与者退出的几率也会降低不少。正如我们在先前的博文中提到的,有了这些更具代表性的大数据后,我们便可以进一步开展“虚拟药物临床试验的大数据挖掘”工作了。
具体到大数据挖掘技术,目前常用的、在实践中证明有效的已有不少了,我们会摘取一些加以介绍,今天介绍的是关联规则技术。
在《数据挖掘技术与工程实践》一书中,我们介绍了关联规则的经典应用。下面我们摘录书中一些关联规则在医学上的扩展应用。我们观察一下事件A和事件B的并发组合,如表7-1所示。
表7-1 A、B事件的并发组合
作为事件A和事件B的并发组合一共四种情况:
001:前件A->后件B
002:前件A->后件非B
003:前件非A->后件B
004:前件非A->后件非B
其中“非A”表示事件A没有出现,“非B”表示事件B没有出现。如果我们将以上每种情况的支持度和置信度简化为高低两个取值,则不同支持度和置信度下的事件A和事件B并发组合总共有16种,如表7-2所示。
表7-2 A、B事件的并发组合情况
2.1对不同并发模式的兴趣
不同支持度和置信度的并发组合模式分为如下几种:
HH模式:高支持度高置信度
HL模式:高支持度低置信度
LH模式:低支持度高置信度
LL模式:低支持度低置信度
第一种HH模式是很常见的应用,前面谈过很多了,这里我们不再讨论了。我们主要看一下后面三种模式在医学上的应用。
1.HL模式
在合并症研究中,关联规则模型的支持度高时,说明该合并症病例的基数很大,置信度虽然可能不高,但因为病例的基数大,事件A(合并症A)伴随事件B(合并症B)出现的情况也是一个常见的情况。比如某种代谢病的基数很大,伴随出现酮症酸中毒症虽然置信度不高,但是因为代谢病的基数大,酮症酸中毒症伴随代谢病(或者说代谢病合并酮症酸中毒症),也算是一个常见的情况,需要加以注意。
2.LH模式
这是一种低支持度和高置信度的模式。因为这种模式的置信度高,所以伴随现象从前件推知后件的正确概率很高。这样的模式见于一些少见疾病的特殊伴随现象。这种特殊伴随现象作为一个特征,可以用来发现和提示少见疾病的特殊伴随现象的出现,比如伤寒和相对缓脉的同时出现。或者是常见疾病的少见伴随现象,通过前件来推测后件的出现,如感冒引发病毒性心肌炎。
3.LL模式
低支持度和低置信度模式看似无用,但是在医学这种特殊行业(当然其他行业也可能有类似情况),会有一些很少见的伴随现象,却具有极高危险性,如某症状A引发急性心肌梗塞这样的情况。低的置信度是因为这种情况下,心肌梗塞不表现出典型的症状,而是以少见的症状A为表现。如果没有想到症状A后面的心梗,则会耽误救治的最佳时机,可能是一个致命的疏漏。LL模式主要应用于寻找这类拥有高破坏力后件的少见伴随现象。
2.2负模式规则和零模式规则
如表7-1中所示,我们将001(前件A->后件B)这样的关联规则,称为关联规则的“正模式”;将002(前件A->后件非B)或003(前件非A->后件B)这样的关联规则,称为关联规则的“负模式”;将004(前件非A->后件非B)这样的关联规则,称为关联规则的“零模式”。
经典的关联规则发现的是表7-1的ID-001的部分。当事件A出现时事件B也出现,且具有高支持度和高置信度,如某种疾病的高血压症状和高血胆固醇症状的伴随出现具有高置信度和支持度。这样的关联规则我们称之为“正模式”规则。ID-002和ID-003是另外一种关联形式,浅灰色的是事件A出现时事件B不出现,如买了A品牌啤酒的顾客不买B品牌啤酒,再如有高血压症状的病人没有高血胆固醇症状的伴随出现。深灰色的是事件A不出现时事件B出现,如没有买A品牌啤酒的顾客购买B啤酒,再如没有高血压症状的病人却有高血胆固醇症状的出现。这样的关联规则我们称之为“负模式”规则。ID-004是又一种模式,没有出现事件A时事件B也没有出现,如没有购买A啤酒的顾客也不会买B啤酒,再如没有高血压症状的病人也没有高血胆固醇症状的出现。这样的关联规则我们称之为“零模式”规则。
医学数据的特点与购物数据不同。医学数据的非A(非B)不是购物篮中的没有购买,而是可能某医学指标处于正常范围、低于某值、高于某值或未出现某症状等这些非异常的状况。
1.负模式规则
应用负模式规则是一种特殊的伴随现象,在医学上的用途之一是可以发现致病因素或疾病的保护因素。当非A事件与疾病伴随出现时,尤其是非A事件与疾病的伴随是LL模式时,提示事件A可能是个保护性因素。当然这只是个现象和可能,具体事件A是不是该病的保护性因素还需要大量的医学验证。而相反,如果事件B是对某疾病有益的因素,当事件A与非B事件伴随出现时,A可能作为某疾病的危险因素而出现。另外,当发现某种症状不出现时而能确诊某疾病,这样的情况可以发现、排除诊断某种疾病的特征维度(症状)。
2.零模式规则
应用零模式也是一种特殊的伴随现象,医学上的用途之一是可以发现某疾病的致病因素或保护因素。在合并症的研究中,当非A事件与不利的非B事件伴随出现时,非A事件可能是个保护因素。如事件B是“高密度脂蛋白在正常范围”,非A事件与非B事件“高密度脂蛋白不足”伴随出现,事件A有可能是个保护因素。如果非A事件与有利的非B事件伴随,则事件A可能是个致病因素或危险因素。
当然,我们提出的负模式规则应用和零模式规则应用绝不能向前面讨论的这样简单操作,实际情况远远比我们想象的要复杂,我们需要将所有的影响因素考虑进去。这里,我们给大家提供比经典关联规则应用更宽泛的应用思路。
CDA数据分析师考试相关入口一览(建议收藏):
▷ 想报名CDA认证考试,点击>>>
“CDA报名”
了解CDA考试详情;
▷ 想加入CDA考试题库,点击>>> “CDA题库” 了解CDA考试详情;
▷ 想学习CDA考试教材,点击>>> “CDA教材” 了解CDA考试详情;
▷ 想查询CDA考试成绩,点击>>> “CDA成绩” 了解CDA考试详情;
▷ 想了解CDA考试含金量,点击>>> “CDA含金量” 了解CDA考试详情;
▷ 想获取CDA考试时间/费用/条件/大纲/通过率,点击 >>>“CDA考试官网” 了解CDA考试详情;