算法层次:
统计学习,涉及python statsmodels包(方差分析,线性回归)
机器学习,涉及python sklearn包,scikit-learn 包括分类、回归、聚类、降维四个大类
statsmodels:假设检验及统计模型功能,主要研究结构性归因问题,并不强调预测功能,主要为推论小数据服务
sklearn:提供数据挖掘模型功能,主要研究预测性问题,主要为大数据服务,以探讨速度问题为特征
方差做差异分析,回归做归因和预测分析
方差分析-多因素和交互
from statsmodels.stats.anova import anova_lm #计算glm 所有模型总体检验
from statsmodels.stats.multicomp import (pairwise_tukeyhsd,MultiComparison) # 单个x不同分类的检验
modelols = smf.ols("总耗~品牌+质量控制+机器类型",data=data).fit()
anova=anova_lm(modelols)
print(np.round(anova,3))
print("事后检验",pairwise_tukeyhsd(data['总耗'],data['品牌']))
import seaborn as sns
fig,ax=plt.subplots(2,1,figsize=(16,12)) #可以画2行1列2个对象,占用尺寸为16:12
sns.lineplot(x='机器类型',y='总耗',hue='质量控制',data=data,ax=ax[0])# ax代表画布第几个对象,hue代表系列分组
sns.violinplot(x='机器类型',y='总耗',hue='质量控制',data=data,ax=ax[1])








暂无数据