政府统计大数据应用模式:“互联网+”还是“+互联网”
一、引言
近年来,伴随着新一代信息技术的快速发展,人类社会逐步迈入大数据时代。大数据已成为重要的国家资源,正在深刻地影响着时代发展进程,催生新的模式和业态。从世界工业革命发展历史来看,如果说第一次工业革命以煤炭为基础、以蒸汽机和印刷术为标志,第二次工业革命以石油为基础、以内燃机和电信技术为标志;第三次工业革命以核能基础、以互联网技术为标志,那么未来第四次工业革命很可能将会以可再生能源为基础、以大数据为标志。以美国、英国为首的一些发达国家,以及联合国、世界经济论坛、欧盟等国际组织,都已从政府和组织层面将大数据发展提升到战略高度(UN Global Pulse,2012;World Economic Forum,2012)。我国政府高度重视现代信息技术,尤其是大数据对社会经济发展的深刻影响。2015年3月5日第十二届全国人大三次会议上,总理总理在政府工作报告中首次提出“互联网+”行动计划,推动大数据研究与应用,为我国各部门和行业未来发展提供了重要的支撑。
政府统计机构作为国家(或地区)应用信息技术生产、管理和发布数据的职能部门,面对大数据带来的影响和挑战,应当积极应对,充分利用大数据催生大变革,构建政府统计大数据发展战略和应用模式,推动现代化统计体系建设。除了互联网+”模式可选之外,目前社会经济中还存在一种较为新颖的、典型的模式——“+互联网”模式。有一些文献对两种模式在经济新常态下的区别进行了探讨,但针对政府统计大数据应用情景下的探讨则较为匮乏。不过,由于大数据主要源于互联网,针对大数据与政府统计的文献可以为此问题研究提供重要参考。Eurostat(2014)概述了大数据对政府统计带来的机遇与挑战。Dass et al.(2013),Buelens et al.(2012),Cheung(2012)等认为大数据会为政府统计带来较有意义的补充,并探讨了大数据在交通和社交等领域中的应用。Landefeld(2014)、Reimsbach-Kounatze(2015)等探讨了如何将大数据与传统政府统计数据进行整合,以及相关的隐私保护等问题。在国内同类文献方面,马建堂(2013,2015)、赵彦云(2015)、郑京平和王全众(2012)、何强(2015)等研究探讨了大数据为政府统计在数据标准与分类、工作机制设计、统计处理技术、统计法律法规等领域带来的新课题,以及大数据在消费、零售、人口、农业、交通等专业统计的应用。整体而言,目前这些研究侧重于大数据在政府统计的具体应用研究,对其宏观应用模式选择的讨论较少,而这是关系到整个政府统计发展的重大战略问题。本文尝试对这一问题进行研究探讨。
二、“互联网+”与“+互联网”的区别及对政府统计大数据应用工作的意义
(一)“互联网+”的概念
目前,对“互联网+”概念的理解存在很多版本。总理总理在2015年政府工作报告中与此概念相关的表述是:国家要制定“互联网+”行动计划,推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场。2015年7月国务院在《国务院关于积极推进“互联网+”行动的指导意见》中认为,“互联网+”是把互联网的创新成果与经济社会各领域深度融合,推动技术进步、效率提升和组织变革,提升实体经济创新力和生产力,形成更广泛的以互联网为基础设施和创新要素的经济社会发展新形态。国家发展和改革委员会在《关于2014年国民经济和社会发展计划执行情况与2015年国民经济和社会发展计划草案的报告》中,将其定义为:“互联网+”代表一种新的经济形态,即充分发挥互联网在生产要素配置中的优化和集成作用,将互联网的创新成果深度融合于经济社会各领域之中,提高实体经济的创新力和生产力,形成更广泛的以互联网为基础设施和实现工具的经济发展新形态。企业界对“互联网+”也有一些具有代表性的定义。比如,马化腾2015年在其全国人大议案《关于以“互联网+”为驱动,推进我国经济社会创新发展的建议》中,认为“互联网+”是指利用互联网的平台、信息通信技术把互联网和包括传统行业在内的各行各业结合起来,从而在新领域创造一种新生态。阿里巴巴集团则认为,所谓“互联网+”,就是指以互联网为主的一整套信息技术(包括移动互联网、云计算、大数据技术等)在经济、社会生活各部门的扩散应用过程。
综合以上多种观点,不难看出,“互联网+”就是一种将互联网与传统行业有机整合的模式,其中“+”后面可以是金融、医疗、教育、交通等。总理总理2015年政府工作报告中关于“互联网+”的规划主要是基于经济层面的考量,是强化互联网主动与传统行业融合的标志。当前中国经济正处于转型升级的重要时期,创新驱动正在成为我国经济发展的新引擎。互联网具有打破信息不对称、降低交易成本、促进专业化分工和提升劳动生产率的特点,为经济转型升级提供了重要机遇。作为已经是世界制造业大国的中国来说,不仅需要继续破解仍存在的粗放发展、核心竞争力依然薄弱等问题,更需要与基于互联网技术的移动互联网、云计算、大数据、物联网等相结合,提升中国制造业的成色与品质。同时,“互联网+”带来的新商业模式和商业业态,还将激发着社会和市场的潜力、活力,逐步成为中国经济提质增效升级的“新引擎”。
(二)“+互联网”的概念
“+互联网”的概念是在“互联网+”的基础上提出的。一般而言,“+互联网”主要是指传统行业以既有业务为基础,主动利用互联网技术和理念,提高为用户服务的效率和质量的发展模式。
从国际上看,德国的“工业4.0战略”、美国的“工业互联网”等模式,都可以大致认为是“+互联网”模式在具体领域的应用范例。主动利用互联网进行自我创新甚至自我革命,具体到每一个行业企业可能模式各异,但总体上这条路是符合“继承——创新——再继承——再创新”这种模式循环往复的。举例而言,原来以线下实体店销售产品的苏宁电器,近几年就通过“+互联网”模式成功转型。2013年2月,苏宁正式更名为“苏宁云商”。伴随着企业名称的更换,苏宁在同年6月8日正式推行“线上线下一体价”策略,强调线上线下渠道在商品、服务、价格方面的融合,线下实体店与线上网站同步共享资源,利用它遍布各地的线下实体店可以很方便地为客户提货送货,实现内部资源使用效率的最大化,同时也为用户提供更开放的服务。这是我国首例大型零售商全面推行线上线下同价的做法,是苏宁多渠道融合的重要一步。2014年4月,该企业还正式推出苏宁互联的品牌,开放虚拟运营商业务,给用户提供通信服务。主动利用互联网自我革新、从线下到线上模式的有效转换,是苏宁在其行业获取成功的重要经验。
(三)“互联网+”与“+互联网”的区别
“互联网+”与“+互联网”的差异包括两方面:
第一,“互联网+”侧重于从线上到线下的过程,而“+互联网”则侧重于从线下到线上的过程。“互联网+”的主导者往往是互联网企业(如阿里巴巴等),从技术、商业模式、资金、人才等方面看,都是互联网企业主导着融合进程。“+互联网”则正好相反,主要是传统企业在主导着融合进程。比如,以淘宝网为代表的网商,首先通过线上的B2C或C2C等形式进行交易,然后再经过线下的快递、邮寄等形式发货,这就是典型的“互联网+”模式。而前述苏宁电器的转型模式则是典型的“+互联网”模式。
第二,“互联网+”具有新技术优势、体制机制优势和更广泛的社会支持,容易产生爆发性增长。而“+互联网”拥有存量优势、行业标准优势和公信力优势。“互联网+”模式下,互联网技术是基础,再加上其优惠的价格、便捷的操作、舒适的体验,足以赢得巨量消费者,典型的例子就是支付宝,它是“互联网+金融”的应用代表。同时,总理总理2015年的政府工作报告还给该模式带来了很大的舆论优势。不过,该政府工作报告提“互联网+”而不是“+互联网”,不是忽略传统企业的作用,更多是希望用互联网这种先进的生产力来倒逼传统产业革新发展。相比之下,在“+互联网”模式中,一方面迫于外部特别是互联网企业的压力,另一方面也迫于内部问题导向的压力,传统企业正在积极主动利用互联网技术提高自身服务客户的能力。这种模式虽然舆论声势不及“互联网+”,但其发展态势非常迅猛,目前也催生一些重要的行业应用模式,如德国的“工业4.0战略”和美国的“工业互联网”。
(四)政府统计大数据应用战略模式中的“互联网+”与“+互联网”
大数据在政府统计中的应用模式,既包括“互联网+”,也包括“+互联网”,但这两种模式存在不同的特点。
政府统计大数据应用中的“互联网+”模式,是指那种“政府统计部门可以通过互联网在线上无技术障碍地获取、存储、分析处理数据”的模式①。比如,对于淘宝、天猫、京东、1号店等电子商务网站,其商品的分类、价格等数据,政府统计部门均可以通过网络爬虫等技术动态获取、存储,进而可以在线下进一步清洗和挖掘。
政府统计大数据应用中的“+互联网”模式,是指那种“数据原本存储在政府、企业、家庭等单位的数据库,政府统计部门无法在线获取、存储、分析处理,但这些单位主动将数据上线,进而政府统计部门可以无技术障碍地获取”的模式。比如,某科研机构部门利用科研专项基金,开展了一项关于居民消费支出情况的调查,取得了很多家庭的微观数据。如果该机构主动将这项调查数据对外公开、共享,政府统计部门也可以获取,则这种模式就可以认为是“+互联网”模式的一种具体应用。
三、政府统计大数据应用的战略模式选择
本文认为,大数据在政府统计应用中的战略模式,不宜只集中在“互联网+”,而是应当同时推进“互联网+”与“+互联网”,且在目前政府统计可用大数据源较为匮乏的情况下,应该给予“+互联网”模式更大的重视力度,积极打破信息共享壁垒,实现数据的互联互通互享,更好地打造政府统计数据源第二轨,持续提升中国政府统计的现代化水平。
(一)当前基于“互联网+”模式的,可为政府统计所用的数据源较少,“+互联网”有助于迅速扩大政府统计可用的数据源,更大程度地发挥数据聚合价值
这可以从大数据的分类上进一步阐释。如果从数据产生主体的角度来分,在马建堂(2013,2015)研究的基础上,将目前可应用于政府统计的大数据,归为行政记录数据、商业记录数据、互联网与传感器数据三大类,如表1所示。
不难发现,表1中除了部分行政记录数据,以及部分基于“互联网+”模式的电子商务交易数据、社交网数据、媒体数据可以无技术障碍地获取外,其余数据均需通过“+互联网”模式导入到互联网,才能成为政府统计可用的大数据源。事实上,尽管当今社会逐步迈入大数据时代,但通过常规统计工作流程从住户、企业等部门获取数据的难度越来越大,调查对象不配合工作的现象时有发生,一套表制度的实施并没有从数据源头解决数据匮乏问题,而且已有的行业企业数据资源均立足行业企业本身的统计标准,彼此之间存在口径差异(比如阿里巴巴集团和1号店对各自线上零售品的分类),形成了众多“信息孤岛”,无法形成数据合力,产生更大价值。因此,做好“+互联网”是实现“互联网+”计划的重要前提之一,有助于政府统计部门逐步实现从“生产—管理”型向“管理—生产”型的职能转变。
从中国国家统计局的实践经验来看,尽管在2013年和2014年分别与阿里巴巴、百度、腾讯等17家知名企业签署了大数据战略合作协议,至今为止仍没有开发出一个成熟的、重要的大数据统计指标,这与数据使用的壁垒高度相关。此外,笔者重点以商业记录数据为例进行考察发现,目前其数据源应用主要有两条途径:一是积极整合行业企业内部的各种数据源,通过对整合后的数据进行挖掘分析,从而开展大数据应用;二是积极借助外部数据(主要是互联网数据)来实现相关应用。但是,现有的数据源中,仍然以机构内部数据为主(比例普遍超过50%,多数行业超过80%),原因主要是数据的开放和交易尚未形成市场主流形态。以国内主要的电子商务交易行业企业为例,虽然目前推出了很多价格指数等大数据应用成果(如1号店指数以及阿里巴巴网购(全网)价格指数等),但这些成果基本都是为企业服务的,由于法律和数据交易机制不健全,这些企业的交易平台在开放交易数据方面仍然持谨慎态度,严重限制了大数据的聚合发展,彰显当前促进“+互联网”模式发展的迫切性。
(二)着重支持“+互联网”模式,有利于数据溯源,辅助甄别数据类型,保护用户数据所有权
政府统计大数据的来源主要包括两方面:一是普查、户籍、社保、医保、电信、金融等传统结构化数据以及在此基础上延伸、扩展后形成的海量非结构化数据;二是基于互联网、传感器、GPS等现代信息技术产生的新数据,如微博、微信、博客、论坛等社交媒体产生的数据。由于数据来源类型多样,所以有必要利用数据溯源技术,记录数据的来源、所有权及其传播、变化过程,据此可以方便地验算结果的正确性,或者以极小的代价进行数据更新,并为数据挖掘与应用提供辅助支持。
“+互联网”模式的从线下到线上的典型特征,可以很好地满足数据溯源的需求,通过数据来源可以对不同类型的数据进行有针对性地清洗和校正,提升数据挖掘与建模时的科学性,并使得数据的所有权得到维护,这还会进一步促进数据的开放与共享,形成良性循环。
(三)“+互联网”模式有助于在“互联网+”模式的基础上,从多种角度评估政府统计数据质量,同时还可以强化社会对统计工作的监督,及时把握政府统计舆情
对政府统计数据质量科学评估,既关系到国家宏观调控的有效性,也关系到各类市场经济主体的切身利益,更对统计部门乃至整个政府部门的公信力有重要影响。目前,对政府统计数据质量评估的方法主要包括逻辑检验、计量经济模型分析、核算数据重估、统计分布检验、调查误差评估等方法(冯蕾、周晶,2013;许涤龙、叶少波,2011),这些方法的共同特点是主要基于统计数据本身进行评估,侧重于统计方法的研究,缺乏从大数据源角度的研究。
“+互联网”模式鼓励更多的数据生产主体,包括政府部门、研究机构、企业、个人等主体,从多种角度公开数据源,为研究政府统计数据质量问题提供更多样化、更详细的数据。比如,针对中国收入分配状况的基尼系数研究,北京大学、中国人民大学、北京师范大学、西南财经大学等机构,都曾利用专项的基金针对中国家庭收入和消费情况进行调查,测算了相应的基尼系数,而且这些测算结果与国家统计局公布的结果存在一定差异,这对评估后者的数据质量提供了重要的数据来源。如果基于“+互联网”模式的数据源进一步增大,则更有裨益。因为对大数据应用而言,数据量通常需要超过一定规模,这是由于利用大数据建模预测时,需要对数据反复进行训练,以便找到拟合更好的训练模型,因此用来训练模型的数据总量必须要足够多,如果少于一定规模,就会出现所谓“过度拟合”(即为了得到一致假设而使假设变得过度复杂)。此外,大数据中的噪音数据往往会以有意义的模式出现,从而会绕过普通训练模型的监控,这就需要更大的数据量进行矫正。
另一方面,随着互联网中可用数据源增多,社会公众会从各个角度对政府统计数据进行评价,在人人均可为自媒体的互联网时代,这些舆情对统计工作具有较强的监督功能,倒逼政府统计进一步提升工作效能和数据质量,多年以来政府统计实践工作也充分印证了这一点。
四、结语
本文探讨了在政府统计大数据应用中,如何科学对待“互联网+”和“+互联网”两种发展模式的战略性问题。本文无意于绝对否定或肯定某一种模式的价值与意义,而是启示研究者根据社会经济发展以及政府统计发展的不同阶段选择更为合适的发展模式。从数据应用的角度而言,“互联网+”和“+互联网”两种模式之间诚然存在分歧,但并不重要,重要的是如何促进线上线下不同类型数据之间的有效聚合,消除数据信息壁垒,从而发挥大数据本身的巨大价值,为服务型政府统计建设提供更强有力的支撑。
数据分析咨询请扫描二维码
在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16