大数据分析五步法:以新经济指数为例
当下,大数据已经上升到国家战略。2016年3月17日出炉的《国民经济和社会发展十三五个五年计划规划纲要》提出,要“实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新”。从“推动数据资源共享开放和开发应用”,到实现“助力产业转型升级和社会治理创新”的美好愿景,离不开可靠稳健的大数据分析。
但是,对于什么是大数据分析、谁该使用大数据分析等关键问题,目前一些流行看法值得商榷。有业界人士提出,“每个从业人员都该考虑大数据分析”。更有看法认为“大数据分析主要依靠机器学习和大规模计算”,其重点在大数据采集存储和基本架构等方面的技术、数据挖掘算法、可视化等方面,而很少探讨如何根据数据建立符合中国现实的模型和产品、如何检验大数据分析效果等问题。
本文以财智BBD新经济指数的构造过程为例,提出大数据分析的五步法,即问题识别、数据可行性论证、数据准备、建立模型、评估结果。希望本文可以抛砖引玉,引发对大数据分析的适用性、可靠稳健的大数据分析标准、如何健康发展大数据产业等问题更深入的探讨。
(一) 问题识别
大数据分析的第一步是要清晰界定需要回答的问题。对问题的界定有两个标准,一是清晰、二是符合现实。构造新经济指数的背景,是中国已经进入资本回报率下降、劳动力萎缩、人口老龄化、外需疲软的经济发展“新常态”。由于现有不少统计资料都刻画了传统行业的下滑与困境,仅从追踪传统行业的变迁的角度,就难以对中国经济的未来走势保持乐观。
但是中国经济发展并非没有亮色。虽然劳动力人口出现萎缩,但中国的人力资本积累仍然在上升。根据笔者参与的教育部人力资本测算结果,过去30年我国人力资本的平均年增速为5.53%,而未来20年预计平均年增速不会低于这个速度。根据人社部资料,2015年就业形势总体稳定,年末城镇登记失业率为4.05%。人力资本的快速积累,为创新型经济的发展提供了人力基础。就业形势没有出现大的波动也表明,传统经济的困境催生了新经济的出现和成长、减轻了经济转型带来的震荡。
对于正在成长的新经济,公开数据只能提供零星的度量。如果统计资料只记录了传统经济的下滑却不能反映代表中国未来经济增长点的新经济的变化,必然会对中国未来的经济走向,给出错误的画面。因此,我们的目标是填补上述空白,尝试来刻画、追踪新经济在整个经济中的发展和变迁。
我们虽然无法直接度量新经济GDP,却可以通过大数据来观察经济生活中各生产要素的变化。这里界定的问题是“中国经济每一元钱的产出中,新经济占的比重是多少?”在没有官方统计数据的情况下,可以通过大数据手段来度量新经济行业中技术、劳动力和资本等生产要素占全行业技术、劳动力和资本等生产要素的比重。这使得度量新经济的相对重要性成为可能。
由于尚无对新经济范畴的界定标准,首先需要明确何为新经济。根据对于中国长期的观察和对政策的理解,我们提出,新经济是更符合中国未来资源禀赋结构的经济模式,具有以下三个特征:第一,高人力资本投入、高科技投入、轻资产;第二,可持续的较快增长;第三,符合产业发展方向。
从新经济指数的例子可以看到,识别问题环节需要考虑到数据的可行性,更需要对中国相应国情有较清晰的认知。
(二) 数据可行性论证
论证现有数据是否足够丰富、准确,以致可以为问题提供答案,是大数据分析的第二步,项目是否可行取决于这步的结论。大数据和传统数据的生成方式有本质不同。传统数据往往是在识别问题、根据问题设计问卷、之后展开调查获得的数据,而大数据却是企业或者个体各类活动产生的附属产品。作为附属产品,大数据往往不是为了特定数据项目生成,也存在较高噪音。这就要求数据可行性论证过程需要仔细推敲,现有数据得出来的结论是否足够可靠。由于大数据分析技术本质属于数据挖掘法,过度拟合问题往往是大数据分析的难点。过度拟合问题最主要的一个症状是难以外推,即在一个地区一个时期可以做出很好预测的模型,在另一个地区另一个时期却表现很糟。
因此,在数据可行性论证主要涉及三个环节。第一,厘清项目需要的大数据、小数据和专业知识;第二,完成从抽象概念到具体指标的落实;第三,考察数据的代表性。
对于新经济指数而言,数据的可行性论证要解决一下问题:第一,如果细化抽象标准?第二,可否利用大数据识别出属于新经济的企业?第三,数据是否可以支撑对全国新经济状况的度量?
1. 大数据、小数据和专业判断
构造新经济指数需要大数据、小数据和中国经济的认识和判断,这三者缺一不可。例如,要确定“高人力资本投入、高科技投入、轻资产”的行业,我们要用到2010年中国各行业投入产出表、第六次人口普查和2008年经济普查数据;确定可持续的较快增长的行业,需要用到工业普查数据和经济普查数据;确认是否符合产业发展方向,则需要从历年产业政策计划中查找相关信息,如2012年的《国务院关于加快培育和发展战略性新兴产业的决定》和2015年的《中国制造2025》。再如,《2014美国新经济指数》(2014 State New Economy Index)报告指标体系、硅谷指数(SiliconValley Index)等国际知名新经济和创新指数体系也为创建新经济指数提供了很好的参考。上述数据和资料都不属于大数据范畴,却是采用大数据分析结果的可信度的根基。
2. 从抽象概念到具体指标
论证数据可行性的重点是将抽象概念进一步细化到可以采用的数据条目,这往往需要依靠专业判断和参考国内外通行标准。首先要梳理哪些抽象概念需要被细化,然后考察获取细化信息是否可行。每一个项目在执行过程中都有其难点,因此需要在数据可行性论证环节更加明确对难点的处理策略。对新经济指数而言,需要细化的抽象概念有“高”、“可持续”、“较快”等标准,执行难点是如何识别新经济企业。
抽象标准的细化需要专业知识和对国内外相关行情的认知。对于度量“高”、“可持续”、“较快”,新经济指数选择劳动者报酬与营业盈余之和占增加值之比超过70%、劳动力平均教育年限超过12年、研发经费支出占主营业务收入的比重名列前茅、固定资产占总资产30%以下的行业;持续五年增速在所有四位数代码行业中排名前10%的行业,等等。
识别新经济企业是数据论证的难点。虽然大数据挖掘技术可以获取企业名称等信息,但不少企业没有四位数行业代码,也就无法直接识别一家企业是否属于新经济行业。我们的处理策略是根据既有企业名称信息又有业务经营范围信息的企业样本,从《统计用产品分类目录》找到相关代码,再从《国民经济行业分类》中找到行业代码。在此基础上建立模型,利用企业名称的关键词来预测其他企业所属行业。
3. 总体还是代表性样本
大数据的代表性是论证数据可行性的必要步骤,在这部分需要明确,使用的数据是总体还是子样本,如果是子样本,数据的代表性如何。需要注意的是,一个项目采用的大数据是否是数据总体,很多时候取决于要解决的问题。例如,谷歌拥有所有用户浏览的历史记录,如果用该数据分析谷歌用户浏览习惯,那么该数据是总体;但如果要预测美国流感趋势,那么总体就是所有美国人,而不是所有使用谷歌搜索流感信息的用户。
在新经济指数构造过程中,由于采用某些地区的详细数据外推到全国其他地区容易遇到过度拟合问题,因此,数据的采集目标是分项指标在全国的总体。我们的十一项分项指标中,有六项是相应指标在全国的总体;另外五项虽然不是总体,但也都达到总体的至少70%。一方面,未来数据采集技术的提升可以将另外五项指标的收集也达到总体的程度。另外一方面,我们的模型采用的是相对指标而不是绝对值,因此,即便一些指标尚不是总体,我们也可以根据大数定理,相信在数据量足够大的情况下,我们的数据计算出比例可以无限趋近于中国的真实状况。
大数据分析中,识别问题和数据可行性论证往往不是一步完成的。比如,如果将问题识别为如何度量新经济GDP,就无法通过数据可行性论证。在考虑数据可得性的基础上重新定义问题才可以增加对项目可行性的信心。在实际操作中,当第一步发生变化时,第二步数据可行性的论证重点也需调整。因此需要反复推敲这两步,才能找到进入下一步的最佳契合点。
(三) 数据准备
数据准备环节需要梳理分析所需每个条目的数据,为下一步建立模型做好从充分预备。这种准备可以分为数据的采集准备和清洗整理准备两步。
1. 数据的采集准备
为大数据分析做数据采集准备时,往往不能回避下列问题:项目的数据预算有多少?配备的人员设备是否足够?项目预期数据采集的完成期限?项目打算用什么方法收集数据?哪些数据是可以通过自身努力来获取,哪些数据需要通过购买获得?哪些数据获取中会存在时间和经费上的不确定性?如果一些重要问题的答案是否定的或者含糊的,就可能需要重新回到数据可行性论证环节。这一点,对于希望用大数据分析做产品的小微企业、新创企业尤为重要。
新经济指数的数据收集主要依托BBD的大数据收集和整理能力。为计算新经济指数,历经数月的预备,我们一共收集了5200余万条招聘信息、270万条新企业登记信息、376万条招标/投标数据、2.8万条风险投资数据、5000余条三板上市数据、580万条专利登记数据、30万条专利转移数据,另外还包括用以计算城市人口流动信息的实时铁路出票量数据、机场航班流量数据。由此产生的数据总量合计超过370G。
2. 数据的清洗整理准备
虽然数据清理包含不少常规处理,但是高质量的数据清理工作需要数据准备团队时刻对项目目标了然于胸。例如,我们希望根据网上的招聘信息计算出全国新增加的招聘需求,但简单将所有招聘信息中的需求人数相加并不能满足我们的要求。这是因为需要招聘企业常常会多次发布同样一条信息,因此不去掉重复信息就会夸大人才需求。但是,有些企业隔段时间发布的相同的招聘信息确实是新的招聘需求,如果去掉所有的重复信息又会低估用工需求。这就要求在数据清理阶段,对于去重的不同频率作出尝试。在新经济指数的制定中,我们尝试了按月去重(即假定下一个月发布的同样的招聘信息算作新招聘)和按年去重(即假定下一年发布同样的招聘信息才算作新招聘信息)这样不同的标准,来考察对新经济指标稳健性的影响。我们发现由于使用比例指标,按月或者按年去重差异不大,因此最终采取按月去重的方式来整理招聘信息。
(四) 建立模型
大数据分析项目需要建立的模型可以分为两类。对于这两类模型,团队都需要在设立模型、论证模型的可靠性方面下功夫。
1. 专业领域模型
大数据产品对应的项目可能有对应的专业领域模型,例如信用风险管理需要用到的违约概率(PD) 模型,违约损失率模型(LGD)模型;市场风险管理要用到的VaR,sVaR模型等。数据团队需要明确为何选择某个专业领域的模型。
构造新经济指数时,我们根据经济理论建立计算指数的模型。我们采用科布道格拉斯生产方程的形式,那么新经济占总经济产出的份额即:
其中K, H,A,L分别代表物质资本、人力资本、技术水平和劳动力。w为各个要素投入的产出弹性,θ则代表各生产要素投入新经济的份额。这一模型为后面采用各比例计算新经济指数提供了模型框架。
2. 数据分析模型
这类模型包含分析结构化数据的数据挖掘算法模型;处理非结构化数据的语义引擎;可视化策略等。流行观点中的大数据分析主要集中在对第二类模型的讨论上,因此本文从简。
构造新经济指数过程中,这类模型主要用于识别新经济企业。将所有企业分为新经济企业或者非新经济企业的任务,首先要运用270万家新企业作为训练数据来建立“企业名称 -- 行业短语 -- 行业识别”模型。接着对所有企业的名称进行分词,应用上面得到模型计算每个企业的行业概率。这里采用的主要是多元logit回归模型。
建立模型时既需要强大运算能力,也需要专家的主观判断。例如,新经济指数中,各要素投入新经济的份额可以利用大数据收集得到,但产出弹性却因无法观测,需要一定的事先判断。例如,2014年中国第三产业的劳动者报酬占增加值比重约为47.2%,考虑到新经济行业是“以高质量劳动力为主要要素投入”的行业,我们将劳动者投入弹性定为40%。又如,确定哪个短语—行业识别模型可靠时,新经济指数要求识别程序行业判断准确度达到95%左右。由于模型的建立和计算离不开专家的主观判断,为保证项目质量,模型团队报告结果时应明确哪些信息是由算法决定的、哪些是由主观判断完成的。
(五) 评估结果
评估结果阶段是要评估上述步骤得到的结果是否足够严谨可靠,并确保数据分析结果能够有利于决策。评估结果包括定量评估和定性评估两部分。
1. 定量评估
定量评估是需要关注主观标准的可靠性。数据挖掘分析方法在计算上虽然依靠技术,但不少关键节点依靠主观标准。例如,决策树在什么时候停、做聚类分析时事先要定几类;训练样本和检验样本的大小关系等。对涉及主观标准的各项指标,定量评估需要做稳健性检验。例如,对于新经济指数而言,劳动、资本和技术的产出弹性的设定主要根据专家判断,因此在构造过程中,我们通过调整弹性值的方法来考察新经济指数的稳健性。
2. 定性评估
定性评估的重点是考察大数据分析的结果是否合理、方案是否可行。例如,新经济指数是否比较准确地刻画了中国新经济的比重的问题,就是对结果的定性评估要求。这需要政府、企业、学界各方在对新经济指数有一定了解之后才能确认。因此新经济指数采用的策略是先试运行一段时间,检查各种参数是否合理、计算是否准确到位,再正式发布。
在评估其他采用大数据分析的结果时,由于定性评估往往需要一段时间之后才能完成,因此将大数据分析结果用于现实时,需要采取审慎步骤。例如企业希望依据大数据结论对生产策略做出调整,可以考虑渐进式方法从传统生产模式逐渐调整到大数据产品建议的模式,以减少模型失误带来的损失。
结论
我国将实施国家大数据战略,这对于大数据产业和对中国经济可持续增长,都是振奋人心的好消息。但是,由于大数据往往是一些经济活动的附带产品,大数据分析产品是否可靠需要冷静的头脑和充分的论证。在大数据产业兴起的时候,要防止过于迷信大数据和大数据相关技术,却忽视数据分析、忽略中国国情的倾向。本文以新经济指数为例,有如下主要观察。
第一,大数据分析不只是机器学习和大规模运算,需要涉及问题识别、数据可行性论证、数据准备、建立模型和评估结果五步。这个过程往往不是一步到位、需要在某些环节反复进行,才能最终获得相对稳定的分析结果。
第二,大数据分析并非适用于每个项目,只有通过了数据可行性论证的项目,才可考虑大数据分析。
第三,高质量的大数据分析,需要有足够的预算来涵盖获取大数据获得、配备分析数据的人员和设备的相关费用。微小企业、创业企业在考虑大数据分析时需从费用角度对项目可行性作更多论证。
第四,大数据分析本身离不开小数据和专业判断。高质量的大数据分析需要既懂技术、又对相应领域的问题有深刻认知的跨界团队的深度合作。
最后,对于大数据分析的结果,还需要交由决策相关人以及各方专家评估,给予一定的时间来确认大数据分析有利于最终决策。
总结以上各点可以看到,在发展大数据产业时,不仅需要关注采集存储、基本架构、数据挖掘算法、可视化等方面的技术,也需要对严谨可靠的大数据分析加大投入,促进大数据产业健康发展,最终实现助力产业转型升级和社会治理创新的愿景。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16