处理好这十大关系,再说有序推进我国大数据事业
我们对大数据的认识可以划分为几个层次:宏观层面,大数据是“战略资源”;中观层面,大数据是“产业”;微观层面,大数据是“经济资产”。同时,大数据也是“科学”和“技术”。
英美大数据发展六阶段
回顾英美大数据发展历程,至少已经经历了六大阶段:(1)早期萌芽阶段。从上世纪90年代开始到本世纪初,是大数据发展的萌芽阶段,主要体现为数据挖掘和处理技术的日渐成熟,代表性事件则是“啤酒和尿布”关联销售案例的出现。(2)应用驱动的探索阶段。从本世纪初到2006年,是大数据的应用探索阶段,少数领先的科技巨头公司例如美国的亚马逊、谷歌公司等已经基于自身业务特点,逐步探索大数据应用,研发大数据技术,实现商业变现和增值。此阶段的标志性事件是谷歌发布了分布式文件系统Google File System、分布式处理框架MapReduce和非结构化数据库BigTable三驾马车,奠定了大数据应用的基石。(3)技术传播和爆发阶段。2006年,在现任Apache软件基金会主席Doug Cutting的主导下,开源大数据软件的代表Hadoop横空出世,并且逐渐取得了工业届、学术界、大数据社区的认可,成为大数据届的事实标准。(4)社会传播和大众认知阶段。从2008年开始,在鼓吹者的推波助澜之下,大数据逐渐走入大众视野,进入了广泛的社会传播阶段。其标志性事件是Nature杂志刊发了大数据专刊,标志着大数据从技术领域逐渐进入公众领域,大数据理念开始在公众中传播。(5)政府开放数据阶段。2009年,美国政府建立了统一开放数据网站Data.gov,英国也着手开始打造数据公开系统,宣布大数据进入政府开放数据阶段。(6)大数据产业走向成熟阶段。在经历了上述几个发展阶段后,英美大数据产业逐渐走向成熟,标志性事件是杀手级大数据应用和处于统治地位的大型企业出现,例如美国的Palantir。
我国政务大数据建设和政府数据开放
有序推进我国大数据事业,以及政务大数据建设和政府数据公开,需要正确认识并处理好以下十大关系:
(一)对政府数据开放的认识:
政府数据的开放涉及多个层面:一是政府的数据应该可以通过在线、或者公开且容易获取的渠道访问及下载,数据的格式应该尽量接近标准格式;二是政府所开放的数据应该允许获取者的加工、利用和再传播;三是对于不涉及国家安全的数据应尽量向全体公众开放,对于敏感数据可配套数据分级管理制度;四是开放的数据应该是明细数据,并且尽量遵循完整性原则。
(二)政府在数据开放当中扮演的角色:主导方和受益方
政府作为数据的采集、拥有、管理者,在数据开放当中既作为数据的提供方,同时又应成为数据的消费者。政府作为数据开放平台的主导方,往往需要承担数据开放所带来的成本增加。但是,其实政府也是数据开放的受益方。例如,上级政府可以通过监控下级政府所开放的数据估算某一个指标,从而与下级所上报的指标进行对比,发现异常。政府通过开放数据,在公共服务方面,可以吸引更多的人参与探索甚至是试错,在经济方面,以数据开放形成的杠杆效应培育大数据产业。
(三)政府数据开放的路径:加强数据目录和元数据建设
在开放数据的过程中,各国政府通常都会建立相关的配套制度,各部门明确需要梳理和开放的数据资产,根据各类数据的属性,建立方便公众获取数据的途径,例如形成数据开放目录,通过建立层次化的目录结构,配合搜索、关联推荐等常用互联网大数据功能,降低浏览和定位数据的难度,也避免了低端建设数据开放信息化网站的困境。同时,需要加强元数据的建设,尽量完整的描述采集方式、数据质量、用户描述、口径指标、甚至是血缘关系等元数据。在数据开放的优先级方面,可以通过多种考量维度设置开放的优先级,例如数据集的信息化程度和完整程度,同时参照美国等国的社会需求优先级导向方式。
(四)大数据与统筹设计的关系:
习近平指出,随着互联网特别是移动互联网发展,社会治理模式正在从单向管理转向双向互动,从线下转向线上线下融合,从单纯的政府监管向更加注重社会协同治理转变。要以数据集中和共享为途径,建设全国一体化的国家大数据中心,推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。
(五)大数据与价值的关系:
无论大数据的特征包含几个V,大数据最为根本的着眼点在于通过高效的存储、管理、分析、使用数据,产生巨大的价值。目前而言,产生价值最为显著也最为迫切的应用集中在两个领域,一是企业界通过数据实现变现和增值;二是社会和政府通过数据解决问题、提升整体效率。
在数据价值落地方面,仍然存在着很多问题,例如:有的机构不掌握数据,对于大数据感觉无从下手,不知道如何收集数据、应该收集哪些数据;有的机构掌握着数据,也愿意开展大数据应用,但是感觉无从下手;有的机构是手握“数据富矿”找数据,找不到具体的应用场景;有的机构应用了大数据,但是由于运用不合理的方式方法,结果大打折扣。上述问题主要是对大数据应用的价值点不清晰以及对于实现价值的路径不清晰。
(六)大数据与共享的关系:
大数据时代,数据成为资产,创造数据价值的过程其实就好比水的流动。水通过流动就能产生动力,大数据通过流动才能产生价值。滴水难以形成力量,很多水汇集成江河湖海就能形成汹涌澎湃的力量,在大数据时代,数据的关联、交叉、汇聚、共享才能催生业务价值。
(七)大数据与创新的关系:
科学技术的发展已经进入了第四范式阶段,即由数据驱动的创新阶段。在自然科学领域,科学家们正在尝试利用数据驱动科学理论的发展。在社会科学领域,如何通过数据驱动从而实现科学决策、优化政府治理、配置经济和社会资源,利用大数据助力双创工作的开展,也是值得探讨的问题。可以预见,数据范式未来会在社会科学领域发挥重大价值,因为通过宏观大尺度的观察和细节数据的收集处理以及类比分析,就可能模拟、预判政策的执行效果或者精准的感知社会态势。
(八)大数据与人才培养的关系:
大数据最终为人创造价值,也依赖于人实施、产生、创造数据的价值,因此,大数据应当以人为本。想要真正运用好大数据,需要培养懂得业务的大数据人才。如果不懂得业务,就无法准确提炼、定位、搜寻到大数据潜在的应用价值点。如果一线业务人员能够像使用WORD、Excel等办公软件一样轻松自如的应用一些大数据的工具和成果,那么大数据创新就会不断涌现,真正的大数据价值时代就会来临。
(九)大数据与模型的关系:
目前阶段,模型是连接数据和业务价值之间的桥梁,数据通过模型转化为结论,进而指导下一步的行动。最近一段时间,我国各地方政府、社会机构组织了大量的大数据比赛和开放数据大赛,一方面促进了数据开放和流动,另外一方面吸引了更多的社会力量参与数据创新。虽然比赛办得风风光光,但是比赛过后,由于知识产权的问题,一般的模型是不公开的,造成了很多优秀的成果无法传播和扩大影响,比较可惜。在这方面,可以增强探索,例如参照美国数据竞赛网站Kaggle的模式,通过激烈性竞赛,将最好的模型设计原理公开,从而加速模型和知识的扩散和传播。
(十)大数据与安全和隐私保护的关系:
从棱镜门事件到我国出现的诈骗案,信息泄露给社会造成了难以弥补的损失。从技术角度讲,有了大数据之后,信息安全的挑战更大了。同时,大数据也带来了隐私保护的问题。大数据隐私泄露可能发生在多个环节:一是组合信息泄露问题,例如单个信息不造成泄露,但是将网络中的多个信息碎片组合起来就有可能泄露隐私信息;二就是流程泄露问题,数据在存储、传输和处理过程中会造成泄密;三是基础设施造成信息泄露,目前用来存储大数据的基础设施本身有很多安全问题,例如由于历史原因,国内大部分政府、银行、能源机构的数据库软件和服务器仍然采用国外的产品,这对存储于其上的数据构成了泄露的风险;四是针对大数据的APT攻击,敏感大数据更容易成为攻击目标。五是第三方导致的泄露,第三方平台掌握大量大数据,会产生滥用和误用的风险,导致信息泄露。其他类型的安全隐患包括:非授权访问、传输过程中破坏数据完整性、拒绝服务攻击、网络病毒等。
在隐私保护方面,英美很多机构都设置了隐私保护专家,并且都提出了全生命周期数据隐私保护的概念,即在数据从生产到加工、传播的每个环节,都加入了隐私保护的评估和机制保证,而不只是在最后开放的环节才考虑隐私的问题。当前,数据脱敏和匿名化也面临着一些挑战,例如有专门针对数据匿名化的反匿名化技术;根据披露的邮编、年龄范围和搜索关键词就能定位到具体的人;通过用户观看的多部电影名称和大致时间范围定位到用户。
未来展望
数据开放和数据创新最终离不开数据价值体现,也离不开生态系统的支撑。通过构建数据融合、开放、共享、共创的机制,打通“政产学研用金介贸媒”的开放数据体系,通过社会态势感知、沟通渠道顺畅、政策影响评估等典型应用,建立一套用数据说话、用数据决策、用数据管理、用数据创新的管理机制,提高政府的决策、治理、服务、监督、风险防范等综合水平,实现公共利益的最大化,通过数据流引领技术流、物质流、信息流、资金流、人才流形成合力。
当前,只有深刻、清醒的认识大数据存在的各种困难和挑战,坚持从实际出发,立足于大数据的发展趋势和中国发展变化的实际情况,敢于创新,走自主特色的道路,积极探索,才能深入推进我国大数据国家战略的伟大事业,助力实现中华民族伟大复兴的“中国梦”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关 ...
2025-03-04以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-04在现代商业环境中,数据分析师的角色愈发重要。数据分析师通过解读数据,帮助企业做出更明智的决策。因此,考取数据分析师证书成为了许多人提升职业竞争力的选择。本文将详细介绍考取数据分析师证书的过程,包括了解证书种类和 ...
2025-03-03在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2025-03-03数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-03-032025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-03-03大数据分析师培训旨在培养学员掌握大数据分析的基础知识、技术及应用能力,以适应企业对数据分析人才的需求。根据不同的培训需求 ...
2025-03-03小伙伴们,最近被《哪吒2》刷屏了吧!这部电影不仅在国内掀起观影热潮,还在全球范围内引发了关注,成为中国电影崛起的又一里程 ...
2025-03-03以下的文章内容来源于张彦存老师的专栏,如果您想阅读专栏《Python 数据可视化 18 讲(PyEcharts、Matplotlib、Seaborn)》,点 ...
2025-02-28最近,国产AI模型DeepSeek爆火,其创始人梁文峰走进大众视野。《黑神话:悟空》制作人冯骥盛赞DeepSeek为“国运级别的科技成果” ...
2025-02-271.统计学简介 听说你已经被统计学劝退,被Python唬住……先别着急划走,看完这篇再说! 先说结论,大多数情况下的学不会都不是知 ...
2025-02-27“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩稳定, ...
2025-02-26在数据分析工作中,你可能经常遇到这样的问题: 从浏览到消费的转化率一直很低,那到底该优化哪里呢? 如果你要投放广告该怎么 ...
2025-02-25近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的,尤 ...
2025-02-25挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-25在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-25以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-25“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-25在数据分析中,地图是一种非常直观的可视化工具,能够帮助我们更好地理解数据在地理空间上的分布情况。无论是展示销售数据、人口 ...
2025-02-25春风拂面,金三银四的求职季如期而至。谁都想在这场竞争里拿下心仪offer。 一份亮眼简历是求职敲门砖,面试紧张则可能让机会溜 ...
2025-02-24