大数据分析五步法:以新经济指数为例
当下,大数据已经上升到国家战略。2016年3月17日出炉的《国民经济和社会发展十三五个五年计划规划纲要》提出,要“实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新”。从“推动数据资源共享开放和开发应用”,到实现“助力产业转型升级和社会治理创新”的美好愿景,离不开可靠稳健的大数据分析。
但是,对于什么是大数据分析、谁该使用大数据分析等关键问题,目前一些流行看法值得商榷。有业界人士提出,“每个从业人员都该考虑大数据分析”。更有看法认为“大数据分析主要依靠机器学习和大规模计算”,其重点在大数据采集存储和基本架构等方面的技术、数据挖掘算法、可视化等方面,而很少探讨如何根据数据建立符合中国现实的模型和产品、如何检验大数据分析效果等问题。
本文以财智BBD新经济指数的构造过程为例,提出大数据分析的五步法,即问题识别、数据可行性论证、数据准备、建立模型、评估结果。希望本文可以抛砖引玉,引发对大数据分析的适用性、可靠稳健的大数据分析标准、如何健康发展大数据产业等问题更深入的探讨。
(一) 问题识别
大数据分析的第一步是要清晰界定需要回答的问题。对问题的界定有两个标准,一是清晰、二是符合现实。构造新经济指数的背景,是中国已经进入资本回报率下降、劳动力萎缩、人口老龄化、外需疲软的经济发展“新常态”。由于现有不少统计资料都刻画了传统行业的下滑与困境,仅从追踪传统行业的变迁的角度,就难以对中国经济的未来走势保持乐观。
但是中国经济发展并非没有亮色。虽然劳动力人口出现萎缩,但中国的人力资本积累仍然在上升。根据笔者参与的教育部人力资本测算结果,过去30年我国人力资本的平均年增速为5.53%,而未来20年预计平均年增速不会低于这个速度。根据人社部资料,2015年就业形势总体稳定,年末城镇登记失业率为4.05%。人力资本的快速积累,为创新型经济的发展提供了人力基础。就业形势没有出现大的波动也表明,传统经济的困境催生了新经济的出现和成长、减轻了经济转型带来的震荡。
对于正在成长的新经济,公开数据只能提供零星的度量。如果统计资料只记录了传统经济的下滑却不能反映代表中国未来经济增长点的新经济的变化,必然会对中国未来的经济走向,给出错误的画面。因此,我们的目标是填补上述空白,尝试来刻画、追踪新经济在整个经济中的发展和变迁。
我们虽然无法直接度量新经济GDP,却可以通过大数据来观察经济生活中各生产要素的变化。这里界定的问题是“中国经济每一元钱的产出中,新经济占的比重是多少?”在没有官方统计数据的情况下,可以通过大数据手段来度量新经济行业中技术、劳动力和资本等生产要素占全行业技术、劳动力和资本等生产要素的比重。这使得度量新经济的相对重要性成为可能。
由于尚无对新经济范畴的界定标准,首先需要明确何为新经济。根据对于中国长期的观察和对政策的理解,我们提出,新经济是更符合中国未来资源禀赋结构的经济模式,具有以下三个特征:第一,高人力资本投入、高科技投入、轻资产;第二,可持续的较快增长;第三,符合产业发展方向。
从新经济指数的例子可以看到,识别问题环节需要考虑到数据的可行性,更需要对中国相应国情有较清晰的认知。
(二) 数据可行性论证
论证现有数据是否足够丰富、准确,以致可以为问题提供答案,是大数据分析的第二步,项目是否可行取决于这步的结论。大数据和传统数据的生成方式有本质不同。传统数据往往是在识别问题、根据问题设计问卷、之后展开调查获得的数据,而大数据却是企业或者个体各类活动产生的附属产品。作为附属产品,大数据往往不是为了特定数据项目生成,也存在较高噪音。这就要求数据可行性论证过程需要仔细推敲,现有数据得出来的结论是否足够可靠。由于大数据分析技术本质属于数据挖掘法,过度拟合问题往往是大数据分析的难点。过度拟合问题最主要的一个症状是难以外推,即在一个地区一个时期可以做出很好预测的模型,在另一个地区另一个时期却表现很糟。
因此,在数据可行性论证主要涉及三个环节。第一,厘清项目需要的大数据、小数据和专业知识;第二,完成从抽象概念到具体指标的落实;第三,考察数据的代表性。
对于新经济指数而言,数据的可行性论证要解决一下问题:第一,如果细化抽象标准?第二,可否利用大数据识别出属于新经济的企业?第三,数据是否可以支撑对全国新经济状况的度量?
1. 大数据、小数据和专业判断
构造新经济指数需要大数据、小数据和中国经济的认识和判断,这三者缺一不可。例如,要确定“高人力资本投入、高科技投入、轻资产”的行业,我们要用到2010年中国各行业投入产出表、第六次人口普查和2008年经济普查数据;确定可持续的较快增长的行业,需要用到工业普查数据和经济普查数据;确认是否符合产业发展方向,则需要从历年产业政策计划中查找相关信息,如2012年的《国务院关于加快培育和发展战略性新兴产业的决定》和2015年的《中国制造2025》。再如,《2014美国新经济指数》(2014 State New Economy Index)报告指标体系、硅谷指数(SiliconValley Index)等国际知名新经济和创新指数体系也为创建新经济指数提供了很好的参考。上述数据和资料都不属于大数据范畴,却是采用大数据分析结果的可信度的根基。
2. 从抽象概念到具体指标
论证数据可行性的重点是将抽象概念进一步细化到可以采用的数据条目,这往往需要依靠专业判断和参考国内外通行标准。首先要梳理哪些抽象概念需要被细化,然后考察获取细化信息是否可行。每一个项目在执行过程中都有其难点,因此需要在数据可行性论证环节更加明确对难点的处理策略。对新经济指数而言,需要细化的抽象概念有“高”、“可持续”、“较快”等标准,执行难点是如何识别新经济企业。
抽象标准的细化需要专业知识和对国内外相关行情的认知。对于度量“高”、“可持续”、“较快”,新经济指数选择劳动者报酬与营业盈余之和占增加值之比超过70%、劳动力平均教育年限超过12年、研发经费支出占主营业务收入的比重名列前茅、固定资产占总资产30%以下的行业;持续五年增速在所有四位数代码行业中排名前10%的行业,等等。
识别新经济企业是数据论证的难点。虽然大数据挖掘技术可以获取企业名称等信息,但不少企业没有四位数行业代码,也就无法直接识别一家企业是否属于新经济行业。我们的处理策略是根据既有企业名称信息又有业务经营范围信息的企业样本,从《统计用产品分类目录》找到相关代码,再从《国民经济行业分类》中找到行业代码。在此基础上建立模型,利用企业名称的关键词来预测其他企业所属行业。
3. 总体还是代表性样本
大数据的代表性是论证数据可行性的必要步骤,在这部分需要明确,使用的数据是总体还是子样本,如果是子样本,数据的代表性如何。需要注意的是,一个项目采用的大数据是否是数据总体,很多时候取决于要解决的问题。例如,谷歌拥有所有用户浏览的历史记录,如果用该数据分析谷歌用户浏览习惯,那么该数据是总体;但如果要预测美国流感趋势,那么总体就是所有美国人,而不是所有使用谷歌搜索流感信息的用户。
在新经济指数构造过程中,由于采用某些地区的详细数据外推到全国其他地区容易遇到过度拟合问题,因此,数据的采集目标是分项指标在全国的总体。我们的十一项分项指标中,有六项是相应指标在全国的总体;另外五项虽然不是总体,但也都达到总体的至少70%。一方面,未来数据采集技术的提升可以将另外五项指标的收集也达到总体的程度。另外一方面,我们的模型采用的是相对指标而不是绝对值,因此,即便一些指标尚不是总体,我们也可以根据大数定理,相信在数据量足够大的情况下,我们的数据计算出比例可以无限趋近于中国的真实状况。
大数据分析中,识别问题和数据可行性论证往往不是一步完成的。比如,如果将问题识别为如何度量新经济GDP,就无法通过数据可行性论证。在考虑数据可得性的基础上重新定义问题才可以增加对项目可行性的信心。在实际操作中,当第一步发生变化时,第二步数据可行性的论证重点也需调整。因此需要反复推敲这两步,才能找到进入下一步的最佳契合点。
(三) 数据准备
数据准备环节需要梳理分析所需每个条目的数据,为下一步建立模型做好从充分预备。这种准备可以分为数据的采集准备和清洗整理准备两步。
1. 数据的采集准备
为大数据分析做数据采集准备时,往往不能回避下列问题:项目的数据预算有多少?配备的人员设备是否足够?项目预期数据采集的完成期限?项目打算用什么方法收集数据?哪些数据是可以通过自身努力来获取,哪些数据需要通过购买获得?哪些数据获取中会存在时间和经费上的不确定性?如果一些重要问题的答案是否定的或者含糊的,就可能需要重新回到数据可行性论证环节。这一点,对于希望用大数据分析做产品的小微企业、新创企业尤为重要。
新经济指数的数据收集主要依托BBD的大数据收集和整理能力。为计算新经济指数,历经数月的预备,我们一共收集了5200余万条招聘信息、270万条新企业登记信息、376万条招标/投标数据、2.8万条风险投资数据、5000余条三板上市数据、580万条专利登记数据、30万条专利转移数据,另外还包括用以计算城市人口流动信息的实时铁路出票量数据、机场航班流量数据。由此产生的数据总量合计超过370G。
2. 数据的清洗整理准备
虽然数据清理包含不少常规处理,但是高质量的数据清理工作需要数据准备团队时刻对项目目标了然于胸。例如,我们希望根据网上的招聘信息计算出全国新增加的招聘需求,但简单将所有招聘信息中的需求人数相加并不能满足我们的要求。这是因为需要招聘企业常常会多次发布同样一条信息,因此不去掉重复信息就会夸大人才需求。但是,有些企业隔段时间发布的相同的招聘信息确实是新的招聘需求,如果去掉所有的重复信息又会低估用工需求。这就要求在数据清理阶段,对于去重的不同频率作出尝试。在新经济指数的制定中,我们尝试了按月去重(即假定下一个月发布的同样的招聘信息算作新招聘)和按年去重(即假定下一年发布同样的招聘信息才算作新招聘信息)这样不同的标准,来考察对新经济指标稳健性的影响。我们发现由于使用比例指标,按月或者按年去重差异不大,因此最终采取按月去重的方式来整理招聘信息。
(四) 建立模型
大数据分析项目需要建立的模型可以分为两类。对于这两类模型,团队都需要在设立模型、论证模型的可靠性方面下功夫。
1. 专业领域模型
大数据产品对应的项目可能有对应的专业领域模型,例如信用风险管理需要用到的违约概率(PD) 模型,违约损失率模型(LGD)模型;市场风险管理要用到的VaR,sVaR模型等。数据团队需要明确为何选择某个专业领域的模型。
构造新经济指数时,我们根据经济理论建立计算指数的模型。我们采用科布道格拉斯生产方程的形式,那么新经济占总经济产出的份额即:
其中K, H,A,L分别代表物质资本、人力资本、技术水平和劳动力。w为各个要素投入的产出弹性,θ则代表各生产要素投入新经济的份额。这一模型为后面采用各比例计算新经济指数提供了模型框架。
2. 数据分析模型
这类模型包含分析结构化数据的数据挖掘算法模型;处理非结构化数据的语义引擎;可视化策略等。流行观点中的大数据分析主要集中在对第二类模型的讨论上,因此本文从简。
构造新经济指数过程中,这类模型主要用于识别新经济企业。将所有企业分为新经济企业或者非新经济企业的任务,首先要运用270万家新企业作为训练数据来建立“企业名称 -- 行业短语 -- 行业识别”模型。接着对所有企业的名称进行分词,应用上面得到模型计算每个企业的行业概率。这里采用的主要是多元logit回归模型。
建立模型时既需要强大运算能力,也需要专家的主观判断。例如,新经济指数中,各要素投入新经济的份额可以利用大数据收集得到,但产出弹性却因无法观测,需要一定的事先判断。例如,2014年中国第三产业的劳动者报酬占增加值比重约为47.2%,考虑到新经济行业是“以高质量劳动力为主要要素投入”的行业,我们将劳动者投入弹性定为40%。又如,确定哪个短语—行业识别模型可靠时,新经济指数要求识别程序行业判断准确度达到95%左右。由于模型的建立和计算离不开专家的主观判断,为保证项目质量,模型团队报告结果时应明确哪些信息是由算法决定的、哪些是由主观判断完成的。
(五) 评估结果
评估结果阶段是要评估上述步骤得到的结果是否足够严谨可靠,并确保数据分析结果能够有利于决策。评估结果包括定量评估和定性评估两部分。
1. 定量评估
定量评估是需要关注主观标准的可靠性。数据挖掘分析方法在计算上虽然依靠技术,但不少关键节点依靠主观标准。例如,决策树在什么时候停、做聚类分析时事先要定几类;训练样本和检验样本的大小关系等。对涉及主观标准的各项指标,定量评估需要做稳健性检验。例如,对于新经济指数而言,劳动、资本和技术的产出弹性的设定主要根据专家判断,因此在构造过程中,我们通过调整弹性值的方法来考察新经济指数的稳健性。
2. 定性评估
定性评估的重点是考察大数据分析的结果是否合理、方案是否可行。例如,新经济指数是否比较准确地刻画了中国新经济的比重的问题,就是对结果的定性评估要求。这需要政府、企业、学界各方在对新经济指数有一定了解之后才能确认。因此新经济指数采用的策略是先试运行一段时间,检查各种参数是否合理、计算是否准确到位,再正式发布。
在评估其他采用大数据分析的结果时,由于定性评估往往需要一段时间之后才能完成,因此将大数据分析结果用于现实时,需要采取审慎步骤。例如企业希望依据大数据结论对生产策略做出调整,可以考虑渐进式方法从传统生产模式逐渐调整到大数据产品建议的模式,以减少模型失误带来的损失。
结论
我国将实施国家大数据战略,这对于大数据产业和对中国经济可持续增长,都是振奋人心的好消息。但是,由于大数据往往是一些经济活动的附带产品,大数据分析产品是否可靠需要冷静的头脑和充分的论证。在大数据产业兴起的时候,要防止过于迷信大数据和大数据相关技术,却忽视数据分析、忽略中国国情的倾向。本文以新经济指数为例,有如下主要观察。
第一,大数据分析不只是机器学习和大规模运算,需要涉及问题识别、数据可行性论证、数据准备、建立模型和评估结果五步。这个过程往往不是一步到位、需要在某些环节反复进行,才能最终获得相对稳定的分析结果。
第二,大数据分析并非适用于每个项目,只有通过了数据可行性论证的项目,才可考虑大数据分析。
第三,高质量的大数据分析,需要有足够的预算来涵盖获取大数据获得、配备分析数据的人员和设备的相关费用。微小企业、创业企业在考虑大数据分析时需从费用角度对项目可行性作更多论证。
第四,大数据分析本身离不开小数据和专业判断。高质量的大数据分析需要既懂技术、又对相应领域的问题有深刻认知的跨界团队的深度合作。
最后,对于大数据分析的结果,还需要交由决策相关人以及各方专家评估,给予一定的时间来确认大数据分析有利于最终决策。
总结以上各点可以看到,在发展大数据产业时,不仅需要关注采集存储、基本架构、数据挖掘算法、可视化等方面的技术,也需要对严谨可靠的大数据分析加大投入,促进大数据产业健康发展,最终实现助力产业转型升级和社会治理创新的愿景。
数据分析咨询请扫描二维码
CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13在现代银行业中,数字化用户行为分析已成为优化产品和服务、提升客户体验和提高业务效率的重要工具。通过全面的数据采集、深入的 ...
2024-11-13在这个数据飞速增长的时代,企业若想在竞争中占据优势,必须充分利用数据分析优化其营销策略。数据不仅有助于理解市场趋势,还可 ...
2024-11-13数据分析行业的就业趋势显示出多个积极的发展方向。随着大数据和人工智能技术的不断进步,数据分析在各行各业中的应用变得越来越 ...
2024-11-13市场数据分析是一门涉及多种技能和工具的学科,对企业在竞争激烈的市场中保持竞争力至关重要。通过数据分析,企业不仅可以了解当 ...
2024-11-13数据分析与数据挖掘是数据科学领域中两个关键的组成部分,它们各有独特的目标、方法和应用场景。尽管它们经常在实际应用中结合使 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13作为一名业务分析师,你肩负着将业务需求转化为技术解决方案的重任。面试这一角色时,涉及的问题多种多样,涵盖技术技能、分析能 ...
2024-11-13自学数据分析可能看似一项艰巨的任务,尤其在开始时。但是,通过一些策略和方法,你可以系统地学习和掌握数据分析的相关知识和技 ...
2024-11-10Excel是数据分析领域中的一款强大工具,它凭借其灵活的功能和易用的界面,成为了许多数据分析师和从业者的首选。无论是简单的数 ...
2024-11-10在快速发展的商业环境中,数据分析能力已经成为许多行业的核心竞争力。无论是初学者还是经验丰富的专家,搭建一个有效的数据分析 ...
2024-11-10