Python实现无序多分类logistic回归的实例-CDA数据分析师官网

Python实现无序多分类logistic回归的实例

2024-12-06

在处理多分类问题时，无序多分类Logistic回归是一种强大的统计方法，特别适用于具有多个无序类别的情况。通过以下Python示例，我们将演示如何有效实现这一方法，以及评估模型性能。

无序多分类Logistic回归广泛应用于数据科学和机器学习领域，为处理复杂分类问题提供了便利。让我们一起通过以下步骤深入了解其应用：

1. 导入必要的库

首先，让我们导入所需的库，包括numpy、pandas、matplotlib以及sklearn中的LogisticRegression。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report, cohen_kappa_score

2. 加载和探索数据集

我们将使用经典的鸢尾花数据集（Iris Dataset）作为示例。该数据集包含150个样本，每个样本具有4个特征，并分属于3个类别之一。

from sklearn.datasets import load_iris
# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

3. 数据集划分

将数据集划分为训练集和测试集，常用比例为80%训练，20%测试。

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

4. 模型训练

使用LogisticRegression类训练模型，设置multi_class='auto'以自动选择适当的多分类策略。

# 创建Logistic回归模型
model = LogisticRegression(penalty='l2', solver='liblinear', multi_class='auto', random_state=42)
# 训练模型
model.fit(X_train, y_train)

5. 模型预测

利用训练好的模型对测试集进行预测。

# 对测试集进行预测
y_pred = model.predict(X_test)

6. 模型评估

通过混淆矩阵、分类报告和Kappa系数来评估模型性能。

# 生成混淆矩阵
cm = confusion_matrix(y_test, y_pred)
print("混淆矩阵:")
print(cm)
# 生成分类报告
cr = classification_report(y_test, y_pred)
print("分类报告:")
print(cr)
# 计算Kappa系数
kappa = cohen_kappa_score(y_test, y_pred)
print("Kappa系数:", kappa)

7. 结果可视化

通过绘制混淆矩阵，我们可以更直观地了解模型的预测结果。

# 绘制混淆矩阵
plt.figure(figsize=(8, 6))
plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Blues)
plt.title('混淆矩阵')
plt.colorbar()
tick_marks = np.arange(len(iris.target_names))
plt.xticks(tick_marks, iris.target_names, rotation=45)
plt.yticks(tick_marks, iris.target_names)
for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
plt.text(j, i, format(cm[i, j], '.2f'),
horizontalalignment="center",
color="white" if cm[i, j] > cm.max() / 2 else "black")
plt.ylabel('真实标签')
plt.xlabel('预测标签')
plt.tight_layout()
plt.show()

通过上述步骤，我们成功实现了无序多分类Logistic回

归模型的训练、预测和评估过程。接下来，我们将展示完整的Python代码实现。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report, cohen_kappa_score
from sklearn.datasets import load_iris
# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建Logistic回归模型
model = LogisticRegression(penalty='l2', solver='liblinear', multi_class='auto', random_state=42)
# 训练模型
model.fit(X_train, y_train)
# 对测试集进行预测
y_pred = model.predict(X_test)
# 生成混淆矩阵
cm = confusion_matrix(y_test, y_pred)
print("混淆矩阵:")
print(cm)
# 生成分类报告
cr = classification_report(y_test, y_pred)
print("分类报告:")
print(cr)
# 计算Kappa系数
kappa = cohen_kappa_score(y_test, y_pred)
print("Kappa系数:", kappa)
# 绘制混淆矩阵
plt.figure(figsize=(8, 6))
plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Blues)
plt.title('Confusion Matrix')
plt.colorbar()
tick_marks = np.arange(len(iris.target_names))
plt.xticks(tick_marks, iris.target_names, rotation=45)
plt.yticks(tick_marks, iris.target_names)
for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
plt.text(j, i, format(cm[i, j], '.2f'),
horizontalalignment="center",
color="white" if cm[i, j] > cm.max() / 2 else "black")
plt.ylabel('True Label')
plt.xlabel('Predicted Label')
plt.tight_layout()
plt.show()

通过以上代码，我们实现了无序多分类Logistic回归模型的训练、预测和评估，并通过混淆矩阵和其他指标来评估模型性能。您可以根据自己的数据集和需求进行相应地修改和调整。希望这对您有所帮助！如果需要进一步的帮助或解释，请随时告诉我。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

混淆矩阵多分类 numpy pandas matplotlib 数据集划分模型评估特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇RNN和CNN在转移学习中的应用

下一篇hadoop的工作原理解析

Python实现无序多分类logistic回归的实例

1. 导入必要的库

2. 加载和探索数据集

3. 数据集划分

4. 模型训练

5. 模型预测

6. 模型评估

7. 结果可视化

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...