詹惠儿

2020-05-29   阅读量: 4634

机器学习

sklearn实现决策树的参数min_samples_leaf和min_samples_split怎么去理解?

扫码加入数据分析学习群

问:

sklearn实现决策树的参数min_samples_leaf和min_samples_split怎么去理解?

答:

min_samples_leaf限定,⼀个结点在分⽀后的每个⼦结点都必须包含⾄少min_samples_leaf个训练样

本,否则分⽀就不会发⽣,或者,分⽀会朝着满⾜每个⼦结点都包含min_samples_leaf个样本的⽅向去

发⽣。⼀般搭配max_depth使⽤,在回归树中有神奇的效果,可以让模型变得更加平滑。这个参数的数量设置

得太⼩会引起过拟合,设置得太⼤就会阻⽌模型学习数据。⼀般来说,建议从=5开始使⽤。如果叶结点

中含有的样本量变化很 ⼤,建议输⼊浮点数作为样本量的百分⽐来使⽤。同时,这个参数可以保证每个

叶⼦的最⼩尺⼨,可以在回归问题中避免低⽅差,过拟合的叶⼦结点出现。对于类别不多的分类问题,

=1通常就是最佳选择。

而min_samples_split限定,⼀个结点必须要包含⾄少min_samples_split个训练样本,这个结点才允许

被分⽀,否则分⽀就不会发⽣。

添加CDA数据分析金老师,微信号:CDALS06,提供数据分析及CDA考试指导交流!
26.9627 2 4 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子