数据分析的好习惯
良好的数据习惯,助力数据分析,也让我们养成一个系统的数据分析思维。文章按数据分析的步骤进行讲解数据分析需要养成的良好习惯。文章第一点告诉我们,数据拿到手不忙着直接分析,先对数据的基本特征,以及数据分布有一定了解,后期的建模才有的放矢;文章第二点指出,没有经过验证的数据分析不是完整的分析,模型验证也是分析的一大步骤;文章最后指出,学会讲解你数据分析的结果,不然做得再好,难以被人知晓。详情,请大家自行阅读咯。
1. 分析数据前,一定要尽可能多的进行数据可视化!可视化!可视化!做exploratory data analysis
我上过的几乎所有的应用性的统计课程上的老师都会强调这一点。这个习惯对于数据科学家、统计学家来说估计是最最实用的。
在实际的数据分析过程中,数据可视化可以揭示很多insights:从选择什么样的模型,选择哪些feature建模,到如何分析结果,解释结果等等。
给一个很著名的例子, Anscombe's quartet (安斯库姆四重奏):这个例子包含四组数据。每组数据有11个(x, y)数据样本点。
四组数据样本里x的均值方差全相等,y的均值方差基本相等,x与y的相关系数也很接近。
导致的结果是,四组数据线性回归的结果基本一样。但是,这四组数据本身差别很大。如下图。
如果不做可视化,简单跑一个线性回归,我们只能得到同样的回归线。
数据可视化后,很直观的,左上图是传统的线性回归;右上图需要high-order nonlinear term;左下图x和y是线性关系,但是有outlier;右下图x和y没有线性关系,也有outlier, etc.
每一个数据科学家都应该熟悉各种图的画法,更重要的是,不同的图如何反映不同的信息以及面对不同的数据类型时,应该选择哪种图才能最好的揭示数据里蕴含的信息。
为此,强烈推荐关于R里ggplot包的教程:ggplot2 - Elegant Graphics for Data Analysis
当然另一方面,如果数据量太大维度太高,数据可视化做起来就比较困难。这时候就需要一些经验技巧了。
2. 跑完程序得到模型结果时,一定提醒自己:任务只完成50%,分析,验证,解释结果才是根本
很多时候,我们以为写完code跑完程序就完事了。能做到这一步只能算是一个合格的data analyst。这离数据科学家,统计学家还差远了。
分析,验证,解释结果才是根本! 这个过程更需要data sense, domain knowledge, and statistical expertise.
在拿到结果的时候,一定要多问自己为什么。
模型assumptions是否满足?结果是否make sense?能否解答research question?
特别当结果不符合expectation时,要么有新发现,要么有错误!如果有错,错在哪里?
如果模型假设不成立,如何修正?是否有outliers,如何处理?
或有missing values,missing的机制是啥样的(missing at random, completely at random, or NOT at random)?
是否有multicollinearity?
数据收集是否有bias (如selection bias)?
建模是否忽略了confounding factors (Simpson's paradox)?
3. 养成story-telling的习惯
把分析结果跟你的boss或者collaborator讲!务必让他们明白!这个太需要技巧了, 特别是当你的collaborator是layperson的时候。
不会说只能等着被虐,哪怕analysis做的再好!
数据分析咨询请扫描二维码
在当今数字化时代,数据已成为推动经济和技术发展的关键因素。企业和机构对数据科学与大数据专业人才的需求急剧增长。该领域涵盖 ...
2024-11-16金融数学是一门充满挑战和机遇的专业,它将数学、统计学和金融学的知识有机结合,旨在培养能够运用数学和统计方法解决复杂金融市 ...
2024-11-16在信息时代的浪潮中,大数据已成为推动创新的重要力量。无论是在商业、医疗、金融,还是在日常生活中,大数据扮演的角色都愈发举 ...
2024-11-16在快速演变的数字时代,数据分析已成为多个行业的核心驱动力。无论你是刚刚踏入数据分析领域,还是寻求进一步发展的专业人士,理 ...
2024-11-15Python作为一种通用编程语言,以其简单易学、功能强大等特点,成为众多领域的核心技术驱动者。无论是初学者还是有经验的编程人员 ...
2024-11-15在当今数据驱动的世界中,数据分析已成为许多行业的基础。无论是商业决策,产品开发,还是市场策略优化,数据分析都扮演着至关重 ...
2024-11-15数据分析作为现代商业和研究领域不可或缺的一部分,吸引了越来越多的初学者。然而,自学数据分析的过程中,初学者常常会遇到许多 ...
2024-11-15在当今的数据驱动世界中,机器学习方法在数据挖掘与分析中扮演着核心角色。这些方法通过从数据中学习模式和规律来构建模型,实现 ...
2024-11-15随着数据在各个行业的重要性日益增加,数据分析师在商业和技术领域的角色变得至关重要。其核心职责之一便是通过数据可视化,将复 ...
2024-11-15数据分析师的职责不仅仅局限于解析数据和得出结论,更在于将这些复杂的信息转换为清晰、易懂且具有影响力的沟通。良好的沟通能力 ...
2024-11-15数字化转型是企业提升竞争力和实现可持续发展的关键路径。面对快速变化的市场环境,以及技术的飞速发展,企业在数字化转型过程中 ...
2024-11-15CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13