京公网安备 11010802034615号
经营许可证编号:京B2-20210330
异质性和共性是大数据两大挑战_数据时分析师考试
什么是大数据?大数据究竟能做什么?大数据时代的机会与挑战分别是什么?
如今面对无处不在的大数据,却很少有人可以清楚地回答出以上这三个问题。
日前,以“大数据时代,统计无处不在”为主题的问学讲堂在复旦大学管理学院举行。在此期间,《国际金融报》记者遇见了美国普林斯顿大学运筹与金融工程系系主任范剑青。由于对统计学重要而广泛的贡献,范剑青教授荣获2000年度的COPSS总统奖,该奖为国际统计学领域的最高奖,于2008年当选国际数理统计学会(IMS)主席,是该会创会以来70多位主席中惟一的中国人。
在这位统计学大师级的教授眼中,大数据不仅大,而且很复杂,既有结构性的数据,也有非结构性的数据,与生物、工程、自然科学、社会科学等息息相关。
在接受《国际金融报》记者的采访中,范剑青指出,大数据有两方面富有挑战的问题,异质性和共性。异质性能提供个性化的产品、服务等,共性则存在于不断的变化之中。“研究大数据,不仅能够预测未来,更重要的是探索其中的因果联系。”
大数据没那么美好
大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多;发出的社区帖子达200万个;卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……
更重要的是,数据已经不仅仅是数据本身了,这俨然是一场革命。
“大数据的影响包括数据获得、 数据管理、计算基础建设、计算优化等方面。大数据对统计分析的影响则包括噪声叠加、假相关、内生性、误差、异质性等。”范剑青告诉记者,在大数据时代,机会与挑战并存。
大规模的数据集很有诱惑力,能促使人们展开积极的分析,而且分析者希望能够从中获取有获奖可能性的科学发现。但有时,利用大数据意味着最终得到的是糟糕数据。要从大数据中得出高见,给计算机科学、统计推断方法甚至科学方法本身带来了巨大的挑战。
“当然,计算机领域的科学家通过开发出卓越的计算能力和信息存储技术,让大数据的积累成为可能。但是收集数据及存储信息与理解这些内容并不是一回事。”范剑青指出,了解大数据的真正意义并不等同于对小数据进行解读,就像明白鸟群的行为特征并不能解释一只孤独的海鸥所发出的叫声一样。
范剑青指出,标准的统计检验和计算程序原本是要分析从大的群体中提取的小样本,从而得出科学推断。但是大数据提供的样本极大,有时甚至包括整个群体或者群体的大部分。任务之艰巨会给实施计算过程从而完成统计检验带来问题。
“统计学的梦想,在于找到有效的统计方法,运用合适的计算手段,预测未来。”范剑青向记者表达出了他的统计学梦想。
无法取代传统收集法
目前,阿里、腾讯、京东由于坐拥电商的交易数据、社交信息数据等,都在“试水”利用大数据来搭建信用评价体系。但事实上,基于社交网络上的数据来进行信用评分、描绘一个人的画像,在国际上也没有成功的先例。那么,互联网社交数据究竟靠谱吗?
在范剑青在采访时候表示,“大数据肯定对于信用评估非常有帮助,比如在网上购买了什么东西、社交网络上有哪些朋友、你的朋友的违约程度,把这些相关数据整合在一起,显然可以勾勒出一个人基本的信用情况。但我认为,这也不太可能完全取代传统的数据收集方法,因为人们在网上的行为跟平时在网下的行为不完全是一样的。”
范剑青指出,针对个人信用的评价,美国至少有3家公司在收集相关数据,还有一个独立的公司把这些数据综合在一起。其实,非常关键的就是数据收集,因为人的行为是很多样化的。“在这方面,中国可能刚刚开始起步,最重要的还是央行的征信系统。但我相信,线上与线下的结合可以对于个人信用作出更为合理的评价。”
“过去10年至15年来,基于互联网的信息技术革命已给全人类带来了颠覆性影响,信息科学从某种程度上说,已成为推动经济发展的一个重要引擎。现在还可以预见的是:在未来的几十年时间里,更多与经济社会发展相关的决策,都会被大数据推着走。”范剑青表示,对大数据的研究固然涉及众多学科、领域,但按照目前美国学术界的共同看法,数学、统计学和计算机科学的三者结合是构成分析、研究大数据的基础。
防范金融系统风险
金融危机之后,各国都提高了对金融系统性风险的防范意识,其中大数据便是一个非常有效的工具。
作为大数据领域的专家, 范剑青多次受美国证监会邀请讲授大数据金融相关知识。“金融危机之后,美国相继成立了各种金融研究办公室,目的就是统筹收集各种公司的信贷数据,以及持有的相关金融产品的数据,就像防范恐怖袭击一样,给予金融风险不同等级的社会警示。”
事实上,大数据为金融行业带来的变革将首先体现在两个方面:精准营销。大数据改变信息结构,金融机构通过对客户数据的收集和分析,推出更有个体针对性的服务;风险管控。大数据改变风险管理模式,云计算推进最精确和最低成本的风险测算。这也进一步意味着运营效率和绩效的提升。
2012年,华尔街“德温特资本市场”公司利用电脑程序分析全球3.4亿社交账户的留言,进而判断民众情绪并决定如何处理手中的股票。判断便是:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。2012年第一季度,公司因此获得了7%的收益率。
然而,对于利用大数据预知市场,范剑青仍然持保留意见。
“预知市场是很困难的,这其中包括两方面内容,一是投资,二是投机。在投资方面,一些历史数据或许可以有所帮助,比如市盈率、利率、市场信贷情况等,这些数据对于市场是否存在泡沫可以有一个大概的指导,但金融市场间的定价体系很多程度上还依赖于投资者行为,而投资者行为中究竟有多少投机成分,至少目前没有一个模型可以精确地预测。”范剑青如此指出。
值得注意的是,大数据的发展推动了互联网金融、移动金融等各种新业态的不断涌现。不少以技术为主导的互联网新兴企业也将参与到金融行业中来,一起分享大数据带来的饕餮盛宴。
“互联网的盛行,使得很多操作和信息披露变得特别快,买卖交易也变得更迅速,许多过去需要用几年才能完成的事情,在当今市场中过程便会缩得特别短。”范剑青指出,这也意味着市场的波动性可能会在互联网时代的影响下变得比前几年更大。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01