生存曲线的估计方法（3）：寿命表法-CDA数据分析师官网

热线电话：13121318867

生存曲线的估计方法（3）：寿命表法

2020-12-10

公众号：丁点帮你

作者：丁点helper

最近的生存分析系列文章都是介绍生存曲线的估计方法的，其中一篇讲了如何通过每一例患者的生存时间绘制生存曲线、估计生存率，这种方法被称为K-M法，是因为该方法最早是由Kaplan和Meier这两个人提出的；另一篇讲了如何理解生存率的95%置信区间。

回顾一下前面讲过的例子：为了解肺癌患者接受某种治疗后的生存状况，研究者收集了12名肺癌患者治疗后的住院资料。我们将12名观察对象的生存时间由小到大依次排列，可以计算每个时间点的生存概率，进而计算每个时间点的生存率。

然而在实际工作中，经常会遇到样本含量较大的随访资料，例如大型的队列研究。研究人员只会在计划好的时间点对所有研究对象进行随访（例如每年一次），而不会与每个研究对象持续保持联系，准确记录结局发生/删失发生的具体时间。

因此，某些个体的结局/删失发生在两次随访之间，研究者就不能获得其确切的生存时间，只能确定生存时间的区间。在这种情况下，可将原始资料按照生存时间分组再进行分析。

下面我们用一个例子来看看这种方法是如何实现的。

案例：为了解尘肺患者的生存期，回顾性调查了某煤矿确诊为尘肺的患者1166人，其生存时间列于下表。

与K-M法相比，这一方法中的生存时间由一个确切时间变为了一个时间区间（上表中的『确诊年数 ti』这一列）。

这种变化类似于制作频数分布表的过程，上表是对1166名患者的生存时间做了一个频数分布表，比如第一行中的数据就表示，确诊为尘肺后，寿命少于2年的有51人。教科书中把这样整理数据并估计生存率的方法叫做寿命表法。

接下来我们来一步步搞懂上面这张表。

第（1）~（4）列

在背景中讲过，本案例中患者确切的生存时间无从知晓，只能知道在哪个区间。所以要想把1166名患者的生存时间整合起来，就需要按照生存时间的区间来整理，也就是统计每个区间的人数。

你可能会问，为什么上表是以2年为一个区间呢？其实这个区间的宽度是根据随访时间和观察例数来确定的，可根据实际情况合理调整。

一般每个区间为半闭半开区间，最后一个区间终点在无穷大。本例分成了22个时间区间。

在确定分组区间之后，就要统计每个区间内的死亡人数di、删失人数ci以及期初观察人数ni。第一个时间区间的期初观察人数是所有的观察例数；下一个区间的期初观察例数按以下公式计算：

，这和之前讲过的K-M法是一样的。

第（5）~（7）列

在计算某一时间区间内的死亡概率时，需要用该区间内的死亡人数除以该区间内的观察人数，即

。但是当区间内存在删失时，这些个体并未观察至区间的终点，因此这里用期初观察人数做分母不太妥当。只有当删失数为0时，区间内有效观察人数才等于ni。

在一个特定时间区间内，我们假定删失个体发生的时间是均匀分布的，有的在区间刚开始就删失了，有的则在区间快要结束时才删失。把这些删失个体看做一个整体，相当于一半的个体在区间开始时删失，而另一半则存活到了区间结束。因此，可以认为区间内的有效观察人数为：

也被称为期初校正人数。

接下来每一个时间区间的死亡概率和生存概率也就很好计算了：

比如第三个区间（

），66名患者死亡，死亡概率就是：66/1069.5；对应的生存概率就是：1 - 66/1069.5。

上面的计算中，分母是1069.5，这个数值是怎么来的？计算过程如下：

先计算期初人数 = 1166-51-45 = 1070
再计算期初校正人数 =1070 - 1/2 = 1069.5

第（8）~（9）列

接下来的一列就是生存分析中最关心的『生存率

』这一指标了。和之前讲过的一样，各时间点的生存率就是各区间生存概率的乘积。

......注意各时间区间对应的生存率应是该区间上限时间点的生存率，例如上表中第5个区间 [8, 10)对应的生存率为0.7565，意思是某患者确诊为尘肺后预测其活过10年的生存率为75.65%，而不是活过8年的生存率。

最后，再说说为什么要出现表中最后一列『生存率的标准误

』。我们这个表中每个区间的生存率都是用样本计算出来的，要想通过样本了解总体的情况，或者说想估计总体生存率的95%置信区间，就需要用到

。具体解释和计算方法在前文中有详细介绍。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇数据分析师，到底要懂多少业务？

下一篇CDA LEVEL I 数据分析认证考试模拟题库（六）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

生存曲线的估计方法（3）：寿命表法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA数据分析师实操指南：指标体系搭建的方法与完整 ...

【CDA干货】销售额预测实战：基于时间序列与回归分 ...

【CDA干货】金融数据分析：为什么异常值处理是必做 ...

CDA数据分析师必备：指标与指标体系管理基础指南 ...

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA数据分析师核心能力：数据建模实操指南，让数据 ...

【CDA干货】MySQL课时排序累加全指南：3种方法+实操 ...

【CDA干货】Tableau环比计算全指南：3种方法+实操步 ...

CDA数据分析师实操指南：从0到1开展数据治理，激活 ...

【CDA干货】方法验证核心统计：重复性用卡方分析， ...

【CDA干货】两组数据的单因素方差分析：什么时候用 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载