一年前,我退出了加拿大最好的计算机科学项目之一,利用在线课程资源开始创建属于自己的数据科学硕士课程。通过 edX , Coursera ,以及 Udacity 我可以学习我所需要的一切,而且学的更快、效率更高,成本更低。
之后我分析了目前所有的在线数据科学课程,并整理出了一系列课程清单。在本系列的第一篇文章中我推荐了一些优质的编程课程(想学习数据科学?我们整理了一份优质编程入门课程清单),作为本系列的第二篇文章,我将为数据科学初学者推荐一些统计类课程。
统计和概率
课程清单中很多课程我都上过,其他课程均根据网站评分和评论等进行了筛选。我知道成为一名数据分析师以及数据科学家的学习者需要掌握什么技能。
对于本指南,我花了 15 多个小时查找截止到 2016 年 11 月前所有关于统计和概率的在线课程,并从其大纲和评论中提取关键信息,对其评分。除了开源的 Class Central 社区和其数以千计的课程评分及评论的数据库,我没有借助其他任何帮助。
自 2011 年以来, Class Central 的创始人 Dhawal Shah 一直密切的关注着在线课程。在 Dhawal 的帮助下,我列出了这份课程清单。
如何选择课程
每个课程必须符合以下四个标准:
1.必须是入门课程,几乎不需要或者需要很少统计学和概率知识。
2.必须可以随时学习或每几个月可以学习。
3.必须有一定教学时长:完成课程至少需要十个小时。
4.必须是可互动的在线课程,没有书本或文本教程。 虽然后者也是学习统计学和概率的可行方法,但本指南更侧重于课程。
我们尽力涵盖符合上述标准的所有课程。由于 Udemy 上关于这个领域的课程总共有几百个,所以在此仅考虑评论最多和综合评分最高的课程。如果我们错过了一些课程,请给我们留言。
如何评估课程
我们从 Class Central 以及其他评论网站整合了课程的平均评分和评论数量。然后计算每个课程的综合评分。如果一系列课程有多个课程(如德克萨斯大学奥斯汀的“数据分析基础”系列就分为两个部分),我们就计算所有课程的平均评分。同时还根据评论内容进行补充。
我们根据以下三点对课程做出推荐:
1.每个课程均通过编程示例进行教学—— 最好是R 或 Python 。
2.涵盖概率和统计学的基础内容。 最好包含描述性统计,推理统计和概率理论。
3.教学大纲与数据科学的相关度。大纲中是否包含一些生物统计学课程中所教授的基因组学内容。 大纲中是否涵盖数据科学中不常用的前沿概念。
Python 和 R 语言是数据科学领域最主流的两种编程语言
为什么要针对编程?
拥有哈佛大学应用数学硕士学位的数据科学家 William Chen 在 Quora 上回答过一个热门问题:“针对数据科学,如何学习统计数据?”
丨对于任何有抱负的数据科学家,我强烈建议根据编程示例学习相关统计,最好以 Python 或 R 语言为例.
由于许多数据科学家的统计工作是以编程进行的,那么掌握当下流行的工具当然是有益的。
统计与概率
概率不等同于统计数据,反之亦然。 关于两者的区别,我最喜欢的解释来自于石溪大学:
丨概率用于预测未来事件发生的可能性,统计则用于分析过去事件的频率。
而且进一步解释道,“概率是数学的理论分支,它用于研究数学定义的影响,统计是数学的应用分支,它试图分析现实世界的现象”。
统计通常被视为数据科学的支柱之一。 对于概率的关注较少,但是它也是数据科学课程的重要组成部分。
来自哈佛统计局的教授 Joe Blitzstein 在 Quora 上回答中表示,有抱负的数据科学家也应有较好的概率理论基础。
拥有沃顿商学院统计学博士学位的数据科学家 Justin Rising 认为“较好的基础” 意味着要达到概率学本科学历水平。
我们认为最合适数据科学家的统计和概率课程是…
· 数据分析基础 - Part 1:使用 R 语言进行统计 德克萨斯大学奥斯汀分校(edX)
· 数据分析基础 - Part 2:推论统计学 德克萨斯大学奥斯丁分校(edX)
“数据分析基础”包含两个评论最多的统计学课程,课程有 20 条评论,综合评分为 4.48 。 该系列是少数以编程为例,且高评分的课程。 虽然在任何一个课程标题中没有体现,但是课程大纲基本符合我们的课程标准。这些课程在基础知识的深度和广度上非常适合数据科学初学者。
“数据分析基础”系列讲师是来自德克萨斯大学奥斯汀分校的讲师和高级统计顾问 Michael J. Mahometa 。
这两个课程均免费。 每个课程的预计学习时长为 6 周,每周 3-6 小时。有评论写道:
“是十分优秀的课程! 我学习了Part 1,收获颇多,所以决定继续学习 Part 2。Mahometa 博士是非常好的老师,他们的团队十分优秀。 练习很有趣,材料(视频,实验室和习题)都选择得当。 我向任何对
统计分析感兴趣的人推荐本课程(作为
机器学习,大数据,数据科学等课程的入门)。 若从 1 到 10 分打分,我给 50 分!”
专业课程推荐
截止至( 2016 年 12 月 5 日):我们原本的第二推荐,加州大学伯克利分校的 “ Stat2x :统计入门”系列在本文发布几周后关闭了他们的课程。所以我们把在其他推荐部分排名第一的课程放在此处。
使用 R 语言学习统计 杜克大学 Coursera
包含以下五个课程:
· 概率和数据入门
· 推论统计
· 贝叶斯统计
· 使用 R Capstone 学习统计
这五门课程基于杜克大学的优质课程数据分析和统计推理(有 55 条评论,综合评分 4.82 )。课程很综合性、全面的介绍了概率。
MineÇetinkaya-Rundel 博士是此课程的主要讲师。个别课程尽管无法评分,但是可以免费试听。每个课程的预计学习时长为 4-5 周,每周 5-7 小时。有评论认为:
“这是我迄今为止上过的很棒的课程之一。Çetinkaya-Rundel 博士是一位很优秀的老师,他非常喜欢与学生交流。课程有各种各样的教学方法和工具。课程中有很多小测试让我们练习,同时还有 R 语言编程实验室和项目。课程不是太难。”
其他概率学课程
· 概率入门——科学的不确定性 麻省理工学院(MIT)
如果想更深入的学习概率学,可以试试课程。该课程有 34 条评论,综合评分 4.91 。注意:该课程是一个挑战,比大多数 MOOC 课程长很多。还涉及些数据科学初学者不需要掌握的内容。
该课程的老师来自麻省理工学院电气工程与计算机科学系的 John Tsitsiklis 教授和 Patrick Jaillet 教授。本课程的内容与相应的 MIT 课程(概率系统分析与应用概率)基本相同,后者课程已在 50 多年内持续的改进。预计学习时间为 16 周,每周 12 小时。有评论写道:
“许多在线课程模式类似,但是该课程感觉像在麻省理工学院这样顶尖学校的课程——严格并以练习驱动。教授精湛的教学经验令人佩服,在课程中没有一秒是多余的,老师们按照适合的讲课速度配合详细的讲解。练习能够帮助你理解运用概念。这是我上过最好的在线课程。”
其他推荐
我们推荐 #1 系列课程有 20 条评论,综合评分为 4.48 。下面让我们看看其他课程推荐。
· MedStats :医学统计学(斯坦福大学/斯坦福大学 OpenEdx ):课程着力于医学。 包含少数 R 语言课程,尽管不像不如 UT Austin 系列那么多。即使对于非医学方向的人来说也是不错的选择。该课程有 32 条评论,综合评分 4.58 。
· SOC120x:我 “心”统计:学会爱统计(圣母大学/ edX ):针对没有技术背景的观众。不包含编程内容。课程和老师看起来都很有趣。该课程有 11 条评论,综合评分 4.54 。
· QM101x:商业统计(印度管理学院班加罗尔/ edX ): 4 门课程系列之一。着重商业方面。课程内容包括编程。截至 2016 年 11 月,该系列的最后两节课尚未发布。该课程有 27 条评论,综合评分 4.43 。
· 概率与统计研讨会(Udemy):课程讲师,加州大学洛杉矶分校安德森管理学院执行MBA课程副主任 George Ingersoll 博士。该课程付费。课程使用 Excel 。该课程有 452 条评论,综合评分 4.4 。
· 描述性统计简介(圣何塞州立大学/ Udacity):2 门课程系列之一。课程视频很短,内容不含编程。该课程有 8 条评论,综合评分 3.38 。
· 推论统计简介(圣何塞州立大学/ Udacity):2 门课程系列之一。两门课程我都上过,作为对我本科生统计课程的复习,从中我对推论统计获得了更深入的认识。我很喜欢 Katie Kormanik 老师的教学风格。课程视频很短。该课程有 5 条评论,综合评分 4.4 。
· 6.008.1x:计算概率和推理(麻省理工学院/ edX):着力于 Python 编程示例的两门统计学系列之一。该课程有 12 条评论,综合评分 4 。
· 基础统计(阿姆斯特丹大学/ Coursera):阿姆斯特丹大学的两门统计学课程——社会科学专业方法与统计学之一。课程内容不含编程。 该课程有 8 条评论,综合评分 4.06 。
· 推论统计(阿姆斯特丹大学/ Coursera):阿姆斯特丹大学的两门统计学课程——社会科学专业方法与统计学之一。课程内容不含编程。该课程有 3条评论,综合评分 4 。
阿姆斯特丹大学的社会科学专业方法与统计课程包含基础统计和推理统计。
· PH525.1x:统计和 R 语言(哈佛大学/ edX):edX上的 7 门类型课程之一。着力于生命科学。使用 R 语言,但评论认为 UT Austin 系列更好。该课程有 26 条评论,综合评分 3.96 。
- PH525.3x:统计推论和高通量实验建模(哈佛大学/ edX):edX上的 7 门类型课程之一。着力于生命科学。使用 R 语言,但评论认为 UT Austin 系列更好。该课程有 4 条评论,综合评分 4.63 。
· 统计简介(Udacity):这是 Udacity 最早的课程之一,有一些缺陷。内容不含编程。该课程有 41 条评论,综合评分 3.93 。
· 数学生物统计学训练营1(约翰·霍普金斯大学/ Coursera):2 门系列课程之一。着力于生命统计学。该课程有 23 条评论,综合评分 3.13 。
· 数学生物统计学训练营2(约翰霍普金斯大学/ Coursera):2 门系列课程之一。着力于生命统计学。该课程有 3 条评论,综合评分 3.83 。
· KIexploRx:使用 R 语言探索统计(Karolinska Institutet / edX):该课程比起统计学不如说更偏向数据探索。内容含编程。该课程有 22 条评论,综合评分 3.77 。
· 统计推论(约翰霍普金斯大学/ Coursera):约翰霍普金斯大学的数据科学专业两个统计学课程之一。评论不高。该课程有 29 条评论,综合评分 2.9 。
· 回归模型(约翰·霍普金斯大学/ Coursera):约翰霍普金斯大学的数据科学专业两个统计学课程之一。评论不高。该课程有 30 条评论,综合评分 2.73 。
· DS101X:数据科学与数据分析的统计思考(哥伦比亚大学/ edX):微软数据科学专业课程认证的一部分。教学大纲简短。评论不高。该课程有 24 条评论,综合评分 2.77 。
· 了解临床研究:统计学背后(开普敦/ Coursera):“这不是一个全面的统计学课程,但它为医学研究和常用
统计分析领域提供了实用的方向。” 着力于医疗。该课程有 15 条评论,综合评分 5。
· MED101x:应用生物统计学导论:医学研究统计(大阪大学/ edX):着力于生物统计学。内容包含编程。该课程有 3 条评论,综合评分 4.5。
· 概率与统计(斯坦福大学/斯坦福大学OpenEdx):课程大纲不错。内容不含编程。该课程有 1 条评论,综合评分 4.5。
斯坦福大学的概率与统计课程看起来不错,但评论很少。
· 推论和预测的商业统计(伊利诺伊大学香槟分校/ Coursera大学):管理经济与
商业分析专业化 7 门系列课程之一。使用Excel。该课程有 1 条评论,综合评分 5。
· 探索和制作企业决策数据(伊利诺伊大学香槟分校/ Coursera大学):管理经济与
商业分析专业化 7 门系列课程之一。使用Excel。该课程有 1 条评论,综合评分 5。
· 概率,统计和随机过程导论(马萨诸塞州阿默斯特/独立课程):没有视频课程。该课程有 2 条评论,综合评分 2.5。
· 005x:基因图谱统计方法导论(京都大学/ edX):着力于遗传学。需要一定统计和 R 语言知识。该课程有 1 条评论,综合评分 2.5。
· 基因组数据科学统计(约翰霍普金斯大学/ Coursera):着力于基因组。不是很好的入门课程:“该课程对于对这个领域感兴趣,并且有 R 语言程序背景的人来说是不错的选择。”该课程有 2 条评论,综合评分 2。
截至2016年11月,以下课程没有评论。
· 使用 R 语言的统计入门(DataCamp):内容包括编程。 包括 26 小时的视频内容,有超过 4万5千 人参加。 DataCamp 是一个热门的选择。
· 使用 R 语言学习统计计算 ——简单入门(伦敦大学学院/独立):内容包含编程。
· 概率与统计(Carnegie Mellon):使用 R 语言。主要是基于文本教程。相当于大学一个学期的统计课程。
· 概率与统计简介(马萨诸塞理工学院/麻省理工学院 OCW):传统讲座形式(视频)。
· 工程统计分析基础(俄克拉荷马大学/ Janux):着力于工程。
· 基础商业统计(俄克拉荷马大学/ Janux):着力商业。
· STAT101x:大数据应用生物统计学(德克萨斯大学医学部/ edX大学):着力于生物统计学。
· 416.1x:概率:基本概念和离散随机变量(Purdue University / edX):2 门系列课程之一。
· 416.2x:概率:分布模型和连续随机变量(Purdue University / edX):2 门系列课程之一。
· 商业统计与分析专业(莱斯大学/ Coursera):使用Excel。
· 统计入门:概率(哈佛大学):传统讲座形式(视频)。Quora 上常常推荐。
· 统计(Dataquest):多课程系列,内容约 12 小时。需要订阅。使用 Python 编程示例的两门统计课程之一 。 根据 Dataquest :“统计课程目前正在重新编写,预计将于11月底发布。”
结语
本文是六部曲系列的第二篇文章,涵盖了数据科学领域的最佳在线课程。 我们在第一篇文章中介绍了编程,该系列的剩下部分将涵盖数据科学的其他核心部分:统计学,数据科学过程(data science process),
数据可视化和
机器学习。
最后一篇将会是对这些课程的总结,以及其他主题的最佳 MOOC 课程,如数据整理,数据库以及软件工程。
原作者 David Venturi
编译 CDA 编译团队
本文为 CDA 数据分析师原创作品,转载需授权
CDA数据分析师考试相关入口一览(建议收藏):
▷ 想报名CDA认证考试,点击>>>
“CDA报名”
了解CDA考试详情;
▷ 想加入CDA考试题库,点击>>> “CDA题库” 了解CDA考试详情;
▷ 想学习CDA考试教材,点击>>> “CDA教材” 了解CDA考试详情;
▷ 想查询CDA考试成绩,点击>>> “CDA成绩” 了解CDA考试详情;
▷ 想了解CDA考试含金量,点击>>> “CDA含金量” 了解CDA考试详情;
▷ 想获取CDA考试时间/费用/条件/大纲/通过率,点击 >>>“CDA考试官网” 了解CDA考试详情;