生存曲线的估计方法（1）：先看懂这个表-CDA数据分析师官网

生存曲线的估计方法（1）：先看懂这个表

2020-10-20

作者：丁点helper

来源：丁点帮你

前面两篇文章初步介绍了生存分析基本入门的内容，今天我们来看看实际应用中怎么估计生存率。具体的方法和术语我们先不讲，首先来看例子。

案例：为了解肺癌患者接受某种治疗后的生存状况，研究者收集了12名肺癌患者手术加化疗的住院资料。他们的生存时间（月）分别为：2, 5, 8, 9, 9+, 10, 13, 13, 15+, 18, 20, 23+。

试问，采用该治疗方案的12名患者的术后生存率如何？（案例来自相关教科书，有删改）

如何来评判这种治疗方法的生存率呢？我们从“生存数据”入手，关于生存数据的详细解释大家可以看第一篇文章。

今天的文章我们来一步步搞懂上面这张表。

案例中介绍了，一共有12名住院患者，他们的生存时间（用 t 表示）分别为：2, 5, 8, 9, 9+, 10, 13, 13, 15+, 18, 20, 23+，单位是月。第一个问题，有些数字有加号，有些没有，是为什么呢？

有加号的表示，该数据是“删失数据”，什么是删失数据？（以及什么是完全数据？）可以看第一篇文章。这里简单理解就是，患者失联了，后续的信息无法获取。

比如上面的生存时间数据中有一个“9+”，可以理解为，跟踪了9个月，患者一直存活且保持着联系，可是当下一次（比如第10个月开始）去找他的时候（专业名词叫“随访”），找不到了，说的不好听一点，是死是活不知道。

因此，对于这样的数据，我们就叫“删失数据”。由于患者确实可能还活着，只是失联，谨慎起见，我们就在上一次随访的数据“9”后面加一个“+”，表示他存活的时间可能长于9个月。

其他的删失数据也这样理解。搞懂删失后，我们再来看这个表。表格的第（1）列序号代表什么呢？排序的号码！

将上面12名患者的生存时间t 从小到大排序并编号。

——注意两点：

第一，完全数据和删失数据要用不同的编号，比如上面的“9”和“9+”一个是编号“4”，一个是编号“5”，完全数据列在删失数据前面；

第二，其他情况下，相同的生存时间编号相同，比如上面有两个“13”，所以都编为“7”。

编号完成后，就把相应的生存时间排进去，见上表第（2）列。

这里大家需要熟悉一些表达，比如t₁=2、t₂=5 ... 就是指随访的第一个时间点是2个月，随访的第二个时间点是第5个月。

接着往后看，第（3）列是“死亡例数”，就是指在这个时间段的死亡人数是多少？

比如在第一个时间段内（ t₁=2 ）有1名患者死亡，就表示为：d₁=1；

同理，在第二个时间段内也有1名死亡（注意是： t₁~ t₂，就是2月末到第5月末），表示为：d₂=1；

后续依次类推，这里需要注意的是，“死亡例数”记录的是某个特定的时间段内的死亡人数，不是累计的死亡人数。

表格中第（4）列称作“删失数据”，就是记录那些带“+”号的数据的，可以发现，上面每一个删失数据都单独做一例录入。

第（5）列“期初人数”就与上面“死亡例数”相对应，就是指这个观察期开始时的人数。

第一个数（ n₁）是“12”，就表示刚开始观察的人数是12人。

随着观察时间的延长，有患者死亡，就算作是一期。比如，到第2月末时，有1名患者死亡，那么下一个观察期的“期初人数”就是 12-1 = 11，因此： n₂=11，到第5月末时，又一名患者死亡，第3期（i = 3）“期初人数”就是 11-1 = 10，表示为： n₃=10。

后面的以此类推，由此我们可以得出一个计算公式：

后面两列——死亡概率和生存概率也很好理解，只有一点，就是要明白这里计算的概率都是以一期为单位的，而不是累积的。

比如第一期（ i=1），一名患者死亡，所以，死亡概率就是：1/12；对应的生存概率就是：1-1/12。

第二期（ i=2），也有一名患者死亡，死亡概率：1/11; 生存概率：1-1/11。

需要注意，这里的分母变成了11。原因还是：这里是以每一期为一个单位，计算时，都以该期的“期初人数”为分母。

搞清楚了死亡概率和生存概率，终于迎来了我们的主角“生存率”。

这个生存率怎么计算？很简单，就是各期生存概率的乘积。

后面的依次类推，就是这么简单。

我们来验算一下，比如：

用计算器算一下，这个也可以口算，你发现了么？

至于为什么这里都要加一个“ ^ ”以及上表中最后一列“生存率的标准误”怎么理解和计算，我们留到下一篇文章。

以上我们估算生存率的方法教科书称为：Kaplan-Meier法，又称乘积极限法，可以简单记为K-M法。

其基本思想是：将所有观察对象的生存时间（包括删失数据）由小到大依次排列，对每个时间点进行死亡概率、生存概率和生存率的估计。

回顾上面的文章，是否就是这个过程呢？

K-M法一般用于观察对象数目较少的没有进行特定分组的资料（如同本例）。这样可以能够充分利用每条记录的信息，估计不同生存时间点的生存率。

以上就是今天的内容。我们可以看到，实际应用中生存率的计算并不难，就是几个概率相乘。

学习起来真正的难点是一整套数据的记录和整理方法，而且还出现“删失”这种看起来就头大的术语。

所以，处理生存分析，首先要按照我们今天文章的梳理过程，一步一步弄懂每一个的指标的意义，生存率的估计就水到渠成了。

——热门课程推荐：

想从事业务型数据分析师，您可以点击>>>“数据分析师”了解课程详情；

想从事大数据分析师，您可以点击>>>“大数据就业”了解课程详情；

想成为人工智能工程师，您可以点击>>>“人工智能就业”了解课程详情；

想了解Python数据分析，您可以点击>>>“Python数据分析师”了解课程详情；

想咨询互联网运营，你可以点击>>>“互联网运营就业班”了解课程详情；

想了解更多优质课程，请点击>>>

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析人工智能大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇都2020年了，数据分析的真相究竟是什么？

下一篇十分钟快速了解pandas的常用操作！

生存曲线的估计方法（1）：先看懂这个表

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...