从小白到进阶 | 10 个适合数据人练手的 Kaggle 数据集

2022-08-24

CDA数据分析师出品

作者：Andrew Lombarti

编译：Mika

Kaggle 是一个很流行的数据科学竞赛平台。在上面，你不仅可以参加各种数据分析题竞赛，还可以通过各行业的真实数据集来实践自己的技能。

在本文中我们将介绍 10 个数据集，从适合新手小白到高级进阶人群的都有。这些数据集非常有趣，而且还很适合在面试前练习技能。

下面让我们一起来看看吧！

01、泰坦尼克号数据集（初级）

泰坦尼克号数据集是 Kaggle 上最热门的数据集之一。这是一个很好的入门数据集，当中涉及到 13 个变量和超过 1500 个记录。该数据集中包含了乘坐泰坦尼克号的乘客信息。

目标是根据乘客的特征来预测他们是否能幸存下来。根据数据集，你可以看到已婚女性比单身男性有更高的存活概率。

该数据集中的变量有：

年龄
性别
已婚或单身
船票等级（一等、二等、三等）
上船地点（伦敦、南安普敦）
乘客票号
……

关于如何处理这个数据集，网上已经有很多教程了。如果你想挑战一下自己，不妨试着预测乘客在不同地点登船的存活率。

泰坦尼克号数据集链接：

https://www.kaggle.com/c/titanic

02、鸢尾花数据集（初级）

这个数据集是一个经典的二进制分类问题。目的是通过花萼长度，花萼宽度等属性预测鸢尾花属于（Setosa(山鸢尾)，Versicolour(杂色鸢尾)，Virginica(维吉尼亚鸢尾)）三个种类中的哪一类。

例如，山鸢尾的花瓣较短，萼片较宽。假如花瓣长度大于 3 厘米，萼片小于 6 厘米，那么这种花很可能属于山鸢尾。

此数据集中的变量如下：

花瓣长度
萼片宽度
花瓣长度
……

同样有许多可用于处理该数据集的教程。其中最流行的是“在鸢尾花数据集上使用Scikit-learn”。对于初学者来说，这是一个非常好的教程，当中因展示了如何使用Scikit-learn ，还具有预构建的功能，能帮你轻松地训练模型。

鸢尾花数据集链接：

https://www.kaggle.com/uciml/iris

03、列车数据集（初级）

列车数据集也是 Kaggle 上很热门的一个数据集。该数据集包含了乘坐往返于波士顿和华盛顿特区的美铁列车上的乘客信息。

目的是预测乘客是否会在某站下车。根据数据集，可以看到在巴尔的摩下车的乘客比在费城下车的乘客下车的概率更高。

数据集中的变量如下：

年龄
轨道类型（公路、货运）
周末或节假日
……

根据这些变量，有多种方法可以预测某人是否会在某站下车。

列车数据集链接：

https://www.kaggle.com/c/train-occupancy-prediction/data

04、波士顿住房数据集（初级）

波士顿住房数据集包含波士顿市住房的信息。当中有超过 20 万条记录和 18 个变量，目标是预测房价是否昂贵。数据集有三个不同的类别，分别是：昂贵、正常以及便宜。

当中的变量包括：

卧室数量
浴室数量
平均房间数
……

如果你对数据科学领域感兴趣，这个数据集是一个很好的尝试。内容有趣而且不是太难。

波士顿住房数据集链接：

https://www.kaggle.com/c/boston-housing

05、酒精与药物关系（中级）

酒精和药物关系数据集是练习数据可视化技能的绝佳数据集。它包含关于不同药物之间相互作用的信息。

该数据集的目标是根据两种药物的化学结构，从而预测它们是否会相互作用。例如，数据集中表示布洛芬和扑热息痛可以相互作用，因为它们都是抗炎药（NSAIDs）。

数据集中的变量包括：

药物 A 结构（化合物）
药物 B 结构（化合物）
药物 A 和 B 活性（是/否）
……

这是一个很好的数据集，可以用来练习数据可视化技能。你可以在当中试着创建图表，显示不同药物之间的相互作用。

酒精与药物数据集链接：

https://www.kaggle.com/jessicali9530/kuc-hackathon-winter-2018

06、威斯康辛州乳腺癌（中级）

对于那些在数据科学方面比较有经验的人来说，威斯康星州乳腺癌数据集是一个很大的挑战。这个数据集包含了威斯康星州的乳腺癌患者的信息。

该数据集的目标是根据病人的特征来预测是否患有癌症。

例如，你可以从数据集中看到，肿瘤大小若小于 0.50 厘米，患者有 98% 的生存机会，而肿瘤大小大于或等于 0.80 厘米，患者只有15%的生存机会。

数据集中的变量有：

肿瘤大小
肿瘤的等级
影响到的淋巴结
……

网上有一些关于如何处理这个数据集的教程。如果你想挑战下自己，可以尝试预测不同肿瘤大小的生存率。

威斯康星州乳腺癌数据集链接：

https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

07、印第安人糖尿病（中级)

这个数据集是关于预测糖尿病的。这个比赛有超过 15 万个例子，你需要预测病人是否会患糖尿病（二元分类）。

变量相当简单，因为只有一个特征：

糖尿病

这项挑战的目标是预测病人在五年内是否会发展成糖尿病。这是练习二元分类问题技能的好方法。

印第安人糖尿病数据集链接：

https://www.kaggle.com/uciml/pima-indians-diabetes-database

08、亚马逊评论数据集（中级）

亚马逊评论数据集很适合练习文本分析。当中包含了对亚马逊网站上产品的评论。

这个数据集很有趣，当中有正面和负面评论，数据集的目标是预测评论是正面还是负面的。

变量有：

评论文本（一个字符串）

关于如何处理这个数据集，也有很多教程。如果想加大难度，你可以尝试预测情感分析，然后在此基础上建立模型。

亚马逊评论数据集链接：

https://www.kaggle.com/bittlingmayer/amazonreviews

09、MNIST手写数字图像识别(高级)

该数据集包含了很多手写体数字图像，当中由大小为 28x28 像素的图像组成，有 6 万个训练实例和 1 万个测试实例。

该数据集的目标是对训练集和测试集中的所有数字进行正确分类。对于这种类型的问题，通常要使用卷积神经网络（CNN）。

网上有很多关于如何处理这类问题的教程，所以我建议你先从基础知识开始，然后再继续学习更高级的方法。

MNIST手写数字数据集链接：

https://www.kaggle.com/c/digit-recognizer

10、CIFAR-100(高级)

CIFAR-100 数据集非常适合练习机器学习的技能。该数据集包含了 100 张物体的图像，分为六个类别：飞机、汽车、猫、鹿、狗和船。每张图片是 32x32 像素，有三个颜色通道（红、绿、蓝）。

该数据的目标是预测每张图片属于这六类中的哪一类。

数据集中的变量有：

像素
红色通道
绿色通道
蓝色通道
……

有很多关于如何应对这一挑战的教程。想加大难度的话，尝试预测以某种方式扭曲或变换的图像标签。

CIFAR-100 数据集链接：

https://www.kaggle.com/fedesoriano/cifar100

结语：

本文中列出的 10 个数据集能很好地磨练你的数据分析技能。如果你是刚刚入门，可以先试着做一些比较简单的数据集，由浅到难，不断深入进阶。

参考链接：

https://towardsdatascience.com/10-datasets-from-kaggle-you-should-practice-on-to-improve-your-data-science-skills-6d671996177

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

特征数据分析数据可视化神经网络图像识别情感分析机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇我用这个代码识别简单的图片为什么识别不出来？

下一篇没想到啊，Python类还可以这样写，简洁又强大

从小白到进阶 | 10 个适合数据人练手的 Kaggle 数据集

01、泰坦尼克号数据集（初级）

02、鸢尾花数据集（初级）

03、列车数据集（初级）

04、波士顿住房数据集（初级）

05、酒精与药物关系（中级）

06、威斯康辛州乳腺癌（中级）

07、印第安人糖尿病（中级)

08、亚马逊评论数据集（中级）

09、MNIST手写数字图像识别(高级)

10、CIFAR-100(高级)

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...