项目案例之决策树在保险行业的应用-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读项目案例之决策树在保险行业的应用

项目案例之决策树在保险行业的应用

2019-09-12

项目案例之<a href='/map/jueceshu/' style='color:#000;font-size:inherit;'>决策树</a>在保险行业的应用

作者 | CDA数据分析师

业务背景——保险行业

业务环境

宏观

中国是世界第二大保险市场,但在保险密度上与世界平均水平仍有明显差距

业界

保险行业2018年保费规模为38万亿,同比增长不足4%,过去“短平快“的发展模式已经不能适应新时代的行业发展需求,行业及用户长期存在难以解决的痛点,限制了行业发展发展环境。

社会

互联网经济的发展,为保险行业带来了增量市场,同时随着网民规模的扩大,用户的行为习惯已发生转变,这些都需要互联网的方式进行触达。

保险科技:当前沿科技不断应用于保险行业,互联网保险的概念将会与保险科技概念高度融合。

(资料来源: 艾瑞研究院自主研究及绘制C2019.6 iResearch)

中国保险市场持续高速增长。根据银保监会数据，2011~2018年，全国保费收入从1.4万亿增长至3.8万亿，年复合增长率17.2%。2014年，中国保费收入突破2万亿，成为全球仅次于美国、日本的第三大新兴保险市场市场；2016年，中国整体保费收入突破3万亿，超过日本，成为全球第二大保险市场；2019年，中国保费收入有望突破4万亿。

发展现状

概览

受保险行业结构转型时期影响,互联网保险整体发展受阻,2018年行业保费收入为1889亿元, 较去年基本持平,不同险种发展呈现分化格局,其中健康险增长迅猛,2018年同比增长108%,主要由短期医疗险驱动

格局

供给端专业互联网保险公司增长迅速,但过高的固定成本及渠道费用使得其盈利问题凸显,加发展现状强自营渠道建设及科技输出是未来的破局方法,渠道端形成第三方平台为主,官网为辅的格局,第三方平台逐渐发展出B2C、B2A、B2B2C等多种创新业务模式。

模式

互联网保险不仅仅局限于渠道创新,其核心优势同样体现在产品设计的创新和服务体验的提升竟合格局:随着入局企业増增多,流量争夺更加激烈,最终保险公司与第三方平台深度合作将成为常态发展趋势

发展趋势

竞合格局

随着入局企业增多，流量争夺更加激烈，最终保险公司与第三方平台深度合作将成为常态。发展趋势

保险科技

当前沿科技不断应用于保险行业，互联网保险的概念将会与保险科技概念高度融合。

衡量指标

图片来源：《聚焦客户体验，数据驱动重塑保险行业》白皮书

业务目标

针对保险公司的健康险产品的用户，制作用户画像，然后进行精准保险营销。

数据分析

分析流程框架

本次案例的数据数据的字段含义如下：

导入数据

import pandas as pd

df = pd.read_csv(r'data.csv', sep=',', header = 0)

df.shape

(5000000, 50)

在这里我们可以看到我们的数据是有5000000条记录和19个特征

数据探索性分析

描述性统计

在我们正式建模型之前，我们需要对我们的数据进行描述性统计，这样我们就能知道整个数据的大致分布是什么样的，做到心里有数，然后能够数据大致的全貌有一定的了解。

type_0=df.dtypes

type_0.to_excel( 'original.xlsx')

#将 KBM_INDV_ID 的int64转化为object

df['KBM_INDV_ID']=df['KBM_INDV_ID'].astype('object')

describe=df.describe().T

type(describe)

describe.to_excel( '../output/describe_var.xlsx')

# 引入画图模块

import seaborn as sns

import matplotlib.pyplot as plt

import numpy as np

# 为分类型变量:所处区的大小，创建直方图

plt.subplot(1, 2, 1)

sns.countplot(x='N2NCY', hue='resp_flag', data=df); #设置 x,y 以及颜色控制的变量,以及画图的数据

plt.xlabel('N2NCY');

plt.ylabel('Frequency');

#了解因变量的分布

Resp_count=df['KBM_INDV_ID'].groupby(df['resp_flag']).count()

print(Resp_count)

str(round(Resp_count[1]/len(df)*100,2))+str('%') #查看购买了

从这个图片我们可以看到，买了保险的用户和未买保险的人所处县的情况。

缺失值处理

我们需要对数据进行缺失值检查，先对每一条记录查看是否有缺失，然后查看一下每一个特征是否有缺失，然后进行相应的缺失值处理。

Next Step：

# 检查是否有缺失的行

df.shape[0]-df.dropna().shape[0] ###

# 检查是否有缺失的列

len(df.columns)-df.dropna(axis =1).shape[1] #626

NA=df.isnull().sum()

print('orginal NA=',NA)

NA=NA.reset_index()

NA.columns=['Var','NA_count']

NA=NA[NA.NA_count>0].reset_index(drop=True)

print(NA)

NA.to_excel( '../output/var_incl_na.xls',index=False)

####处理缺失值

var_char_na=[]

# 我们对连续型数据进行中位数填补，然后对离散型数据进行特殊值填补，我们这里利用的是N

for i in range(len(NA)):

if NA['NA_count'][i]/len(df)>0.75 or len(df[NA['Var'][i]].unique())<=2 :

del df[NA['Var'][i]]

elif df[NA['Var'][i]].dtypes!="object":

# 填充缺失值-中位数

for_na_value = df[NA['Var'][i]].quantile(0.5)

# for_na_value

df[NA['Var'][i]] = df[NA['Var'][i]].fillna(for_na_value)

elif df[NA['Var'][i]].dtypes=="object" and len(df[NA['Var'][i]].unique())<=3:

df[NA['Var'][i]] = df[NA['Var'][i]].fillna('N', inplace=True)

else:

var_char_na.append(NA['Var'][i])

var_char_na

处理分类型变量

#Drop Variables that are not necessary

drop_list=['STATE_NAME','KBM_INDV_ID']

for var in drop_list:

del df[var]

## 检查数据集中数值型变量和字符型变量

var_num = []

var_char_uniq2 = []

var_char_mul= []

for var in list(df):

if df[var].dtypes=="object" and len(df[var].unique())>2:

var_char_mul.append(var)

elif df[var].dtypes!="object" :

var_num.append(var)

else:

var_char_uniq2.append(var)

##处理多值型字符变量

for var in var_char_mul:

temp= pd.get_dummies(df[var], prefix=var, prefix_sep='_')

print(temp)

for var2 in list(temp):

if var2 in '_nan':

del temp[var2]

del df[var]

df = pd.concat([df,temp], axis=1)

del temp

len(df.columns) ##88

df.head(5)

df.to_excel( '../output/data.xls',index=False)

##处理二值型的字符变量

import numpy as np

from sklearn.preprocessing import LabelEncoder

def integer_encode(var):

values = np.array(df[var])

label_encoder = LabelEncoder()

df[var] = label_encoder.fit_transform(values)

for var in var_char_uniq2:

if len(df[var].unique())<2:

del df[var]

else: integer_encode(var)

建模

当我们发现，我们的数据中分类变量比较多，我们尝试采取决策树进行建模，

具体理由：我们做出来的模型需要指导业务人员进行使用，那么要求做出来的模型的可解释要高，而决策树模型的解释性就很强，那么业务人员理解起来就会很容易，那么之后进行应用就不用再专门进行对业务人员的培训，直接让他按照模型做出来的结果进行后续的业务，会提升效率。

# 引用sklearn 模块

from sklearn import tree

from sklearn.model_selection import train_test_split

from sklearn.metrics import classification_report

#from sklearn import cross_validation, metrics

from sklearn import metrics

from sklearn.model_selection import cross_val_score

#from sklearn.grid_search import GridSearchCV

from sklearn.model_selection import GridSearchCV

import matplotlib.pylab as plt

from matplotlib.pylab import rcParams

rcParams['figure.figsize'] = 12, 4

##在模型样本内将数据集7：3分，70%用来建模，30%用来测试

# 定义特征变量和目标变量

features= list(df.columns[1:])

X = df[features]

y = df['resp_flag']

# 将数据集7：3分，70%用来建模，30%用来测试

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3)

clf = tree.DecisionTreeClassifier()

param_test={'min_samples_leaf':list(range(1000,6000,100)),'min_samples_split':list(range(4000,6000,100))}

gsearch = GridSearchCV(estimator=clf,

param_grid = param_test, scoring='roc_auc',n_jobs=1,iid=False, cv=5)

gsearch.fit(X_train,y_train)

#gsearch.grid_scores_, gsearch.best_params_, gsearch.best_score_

gsearch.cv_results_, gsearch.best_params_, gsearch.best_score_

验证输出结果

clf = tree.DecisionTreeClassifier(

class_weight=None,

criterion='gini',

max_features=None,

max_leaf_nodes=8,

min_samples_leaf=2000,

min_samples_split=5000,

min_weight_fraction_leaf=0.0,

splitter='best' )

results=modelfit(clf, X_train, y_train, X_test,y_test)

画出决策树

import os

import pydotplus

from IPython.display import Image

from sklearn.externals.six import StringIO

#os.environ["PATH"] += os.pathsep + 'C:/Users/yacao/Downloads/graphviz-2.38/release/bin'

dot_data = StringIO()

tree.export_graphviz(clf, #决策树分类器

out_file = dot_data)

输出规则

if (df['meda'][i] <= 56.5 ):

if (df['age'][i] <= 70.5 ):

if (df['c210hva'][i] <= 312.5 ):

if (df['ilor'][i] <= 10.5 ):

temp=11

segment.append(temp)

else:

temp=12

segment.append(temp)

else:

temp=8

segment.append(temp)

else:

if (df['tins'][i] <= 5.5 ):

temp=9

segment.append(temp)

else:

temp=10

segment.append(temp)

else:

if (df['pdpe'][i] <= 46.5 ):

if (df['MOBPLUS_M'][i] <= 0.5 ):

temp=13

segment.append(temp)

else:

temp=14

segment.append(temp)

else:

temp=4

segment.append(temp)

业务应用

我们来看一下购买比例最高的两类客户的特征是什么：

第一类：

处于医疗险覆盖率比例较低区域
居住年限小于7年
65-72岁群体

那么我们对业务人员进行建议的时候就是，建议他们在医疗险覆盖率比例较低的区域进行宣传推广，然后重点关注那些刚到该区域且年龄65岁以上的老人，向这些人群进行保险营销，成功率应该会更高。

第二类：

处于医疗险覆盖率比例较低区域
居住年限大于7年
居住房屋价值较高

这一类人群，是区域内常住的高端小区的用户。这些人群也同样是我们需要重点进行保险营销的对象。

除此之外，我们还可以做什么呢？

了解客户需求

我们需要了解客户的需求，并根据客户的需求举行保险营销。PIOS数据：向客户推荐产品，并利用个人的数据（个人特征）向客户推荐保险产品。旅行者：根据他们自己的数据（家庭数据），生活阶段信息推荐的是财务保险、人寿保险、保险、旧保险和用户教育保险。外部数据、资产保险和人寿保险都提供给高层人士，利用外部数据，我们可以改进保险产品的管理，增加投资的收益和收益。

开发新的保险产品

保险公司还应协助外部渠道开发适合不同商业环境的保险产品，例如新的保险类型，如飞行延误保险、旅行时间保险和电话盗窃保险。目的是提供其他保险产品，而不是从这些保险中受益，而是寻找潜在的客户。此外，保险公司将通过数据分析与客户联系，了解客户。外部因素将降低保险的营销成本，并直接提高投资回报率。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

决策树特征 matplotlib 数据分析 numpy 缺失值处理直方图字段

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇数据挖掘知识点串烧：逻辑回归

下一篇海量数据时代，如何把握人工智能先机？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

项目案例之决策树在保险行业的应用

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

全球第一！上交AI智能体炼成Kaggle特级大师登顶Open ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略 ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

项目案例之决策树在保险行业的应用

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

全球第一！上交AI智能体炼成Kaggle特级大师登顶Open ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略​​​​ ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA 数据分析师证书考取全攻略 ...