大数据新闻:功能与价值的初步探讨
在大数据时代,数字内容生产和数据挖掘分析成为常态,在新闻领域也不能例外,新闻报道的功能和价值发生了新的变化。
在功能层面,大数据新闻超越了传统媒体的环境监测、社会协调、文化传承和娱乐等基本功能,基于数据挖掘和分析,让尘封的历史数据、混杂无序的数据重新焕发出新的活力。
1唤醒:重构沉寂的历史数据
(一)对公共数据、原始数据的整合
大数据新闻报道最重要的数据来源就是那些来自政府、专业机构、社交媒体网站的公开数据。这些数据犹如沉睡的宝藏,等待有心人的挖掘。因此,如果具备敏锐的数据嗅觉,能够挖掘出公共数据、原始数据之间的关联,或者只是简单地进行历时性的梳理,就可以让这些尘封的数据焕发出新的生命力。
财新网《数字说》栏目通过把百年来诺贝尔奖得主的信息进行整合和聚类,制作了“百年诺奖”的可视化图,用动态的年轮图,展示了自从设置诺贝尔奖以来的每位得主的国籍、获奖领域和获奖年份等信息;在此基础上,按研究领域、年龄、性别、种族对历年的诺奖得主的比例进行了划分。最后,还分出了年龄最大的获奖者和年龄最小的获奖者,以及两次获得诺贝尔奖的得主。
(二)对数据的二次加工和售卖
大数据新闻的价值来源于对混杂的、非结构化的数据的二次加工和关联挖掘,从中找出数据背后隐藏的故事的价值。在此基础上,这些经过精心处理的数据库本身,也可以成为媒体的再生价值,成为其他媒体或机构的数据和资料来源。这就有了一个数据库的二次售卖过程。比如说《卫报》“数据博客”(Data Blog)和“数据商店”(Data Store)就是如此。“数据博客”通过众包的方式生产新闻,然后把所有经典的案例和数据进行汇总,生成电子书和专业数据库。专业数据库可以免费访问,是作为公益性质的内容而存在;电子书则用于放在网站出售,要付费购买。虽然这种基于数据新闻报道的加工和售卖模式尚处于初期,但无疑为大数据新闻的商业模式开发提供了范本。
2关联:连接当下的事实主体
大数据新闻的另一个功能在于透过纷繁复杂的数据,挖掘数据之间的关联性,通过事实找到当下主体的内在联系。比如说路透社于2013年2月推出的“关系中国”(Connected China)报道,就是基于中国政府官方网站和出版物、中国及世界媒体报道、外国政府分析报告、学术论文等多渠道汇集的海量数据分析而成。数据源包括上万个权利实体(机构和个人)、3万余条关系、150万文档(相当于20本非虚构类图书);路透社根据收集到的数据和人物关系,将内容划分为五部分:“中国档案101”、“社会权力关系图谱”、“机构权力关系图谱”、“职业生涯比较关系图谱”以及“专题报道”,通过对领导人的关系网络、职位升降和人事变动的分析,基于各种错综复杂的关系分析建立了“关系数据库”,通过互动可视化图表来展示。读者可以通过点击图表来获得重要领导人的职业生涯变迁和商业、政治以及社会关系网络图。
在国内,基于中东地区动荡的局势和各国错综复杂的关系,财新网《数字说》栏目用动态环形关系图,直观地呈现了世界各国在中东地区的敌友关系图谱,并用不同的色带做了呈现。如果鼠标移至环形的的灰色区域,比如美国,就会体现出美国跟俄罗斯、以色列、伊朗、哈马斯、叙利亚反对派和阿萨塔之间的关系。
3预测:把握未来的信息走向
正如前面提到的,未来的大数据新闻报道,将会更加侧重于数据驱动型深度报道和区域预测性新闻,利用大数据来预测事物的未来发展动向,满足受众的新闻期待。比如在英国《卫报》的“数据博客”中,就有基于公开数据对大选中的投票者行为进行深入分析,从而预测群体选举行为变化的新闻报道。在名为《我们怎么利用公开数据来分析和塑造选举行为图谱》的报道中,分析者指出,“选举数据可以帮助我们洞察投票者行为,但是公开数据的缺乏正在阻碍分析研究者们的数据挖掘步伐”。记者通过能够找到的有限人口统计学数据和2012英格兰和威尔士两个地区的本地议会选举数据,对在那次议会选举中的投票者做了投票行为分析,发现尽管在数据有限的情况下,很难做出确切的结论,但是仍然可以根据有限的统计变量(主要是人口年龄和每个选区大小)来对投票率进行潜在的预测。⑴
基于大数据的分析预测表明,在2012年两地区议会选举中,老年人比例高的地区投票率也高;另一方面,年轻人比例高的地区,投票率反而低。这是因为年轻人对政治虽然感兴趣,但是他们却不会对选举过程全身心投入和抱有更多幻想。后来的实际投票表明,高龄集中区域和高投票率集中区域的确是比较吻合的。
4“悦读”:展现信息可视化之美
除了上述三大功能,大数据新闻还能够提供更精准的监测环境,最大程度上消除社会的不安定感以及更丰富更新鲜的社会知识,满足受众的求知欲望。最重要的是,以上这些内容都可以通过提供更有趣的形式来呈现,同时不失严肃,这就是数据可视化图表给新闻报道带来愉悦的阅读体验。斯坦福大学2013年的纪录片《数据时代的新闻学》中提到,作为一种讲故事的方式,可视化技术利用了许多其他领域中发展的技术,生成各类可视化图表,比如杂志风格的图表(Magazine style),加注释的图表(Annotated Chart),科展海报式图表(Science Fair Poster),动态流程图(Flow Chart),连环漫画图(Comic Strip),幻灯片(Slide Show),电影/视频/动画(Film/Video/Animation)等。⑵
美国加州大学伯克利分校的Richard KociHermandez提到:“信息可视化的最新趋势是数据可视化和动态图形相结合,这其实是和故事中的叙事结构结合了。这种结合不仅仅是数字在浮动,看起来很漂亮,而是根本不再需要任何的文字叙述。这就是两者(数据可视化和动态图形)结合的美妙之处。……它很有趣,又很严肃,这些因素它都有了。它有一些娱乐性在,视觉的体验又这么强烈。”另外也有评论者说:“在我眼中,这就是网页和印刷品的区别,你可以讲一个故事,你能用文字、音乐或静默,能用动作或任何音效。在印刷品上的东西看起来过于紧缩,甚至有些复杂;但是在网页上,就有了生命力,你可以引导人们理解各个步骤。展示事情的发展、评论它、谈论它,这对我们来说是个启示,同时也意味着巨大的工作量⑶”。
比如该校团队制作的一则名为“能源吸血鬼(Vampire Energy)”的可视化短片,把日常生活的家用电器比喻作能源吸血鬼,提倡人们过低能耗的环保生活。动态的图形显示了我们日常家用电器能源消耗的比例,比如5公斤洗衣机的每小时能耗为消耗20美分,而吸尘器一小时耗电量为17美分等。而这些都通过讲故事的形式,把能源消耗和吸血鬼的形象结合起来,既生动又直观。
5大数据新闻的核心价值:从数据库到“数据闭环”
(一)搭建高品质数据库
大数据新闻是数据驱动型新闻,因此,必须要有专业的结构化数据库做支撑,才能保证新闻报道的客观性和真实性。数据库的来源可以是多种渠道:一是公共数据,主要是来自政府网站或工作报告、企业网站、科研机构和专业调研机构的公开数据等权威渠道;二是媒体资料数据库,主要是媒体自身在长期的新闻报道中积累起来的新闻报道素材和数据等信息;三是受众的个性化数据,主要来自社交媒体和移动媒体,包括用户发布的内容及其所属类别、个性标签、社交关系、社交行为、加入的朋友圈和地理信息等等,这些都是个性化的多维数据,能够深入到以前新闻报道所无法抵达的行为分析、情感分析、心理分析和社会分析的深层。在未来,随着可穿戴设备和物联网的发展,可以随时捕捉的传感数据,这将对数据分析和应用提出更高挑战。基于这些渠道来源,可以建立高品质、结构化的专业数据库,为大数据新闻报道打下良好的基础。
以上提到的数据库分类中,知名的有官方数据门户 data.gov(美国)和data.gov.uk(英国)等,受美国及英国政府启发,越来越多的国家都开设了数据门户网站,鼓励公众对政府数据的再利用。在这些官方的数据网站上,公众可以找到权威的、实时更新的最新索引信息。
除了官方数据库,还有一些社区或专门机构开设的开源数据网站或数据软件网站,比如The Data Hub就是一个由开放知识基金会运作的社区推动型(community-driven)数据资源网站。再比如在线工具ScraperWiki,其目的是“简化有用数据的提取,使这些数据便于应用到其他应用程序,或者提供给记者和研究人员”。这些数据提取网站及其数据库大多数情况下都是公开的,可以重复使用。 再比如世界银行和联合国数据门户网站,可以为所有国家提供多年积累的高水平的指标参数。⑷
此外,互联网上还有很多公开的数据源或者是数据博客,可以供记者或者是爱好者们查询和下载数据。比如《纽约时报》数据图表编辑Kevin Quealy创办的记录型博客“Charts‘n’Things”,收录了纽约时报大部分数据新闻的制作过程。一方面可以将之作为一个不完整的《纽约时报》新闻数据库,另一方面也可以参考纽约时报的数据新闻编辑们面对庞大的数据是如何构思、如何筛选和如何进行数据可视化处理的。包括一些有价值的概念也可以在这里找到。“Charts‘n’Things”是最有价值的数据新闻博客之一。
再比如荷兰阿姆斯特丹大学教授、数据可视化工程师、多媒体记者Bas Broekhuizen建立的Interactive-Inforgraphics博客,通过分享互动可视化图表的理念、制作、理论在业界建立了一定的权威。Interactive-Inforgraphics最大的特点是不仅有工具、技术的分享,同时也有可视化的理论和新鲜理念的交流。Bas Broekhuizen认为数据可视化是一个技术加艺术的实践,但最终是要服务于功能性的工具。清晰地展示数据背后的故事是每个可视化最基本也是最高的要求。因此无论是学者、工具开发者还是数据新闻编辑,都可以在这里找到有用的素材。 (5)
(二)提高记者的数据素养
作为大数据新闻记者,一定要有高超的数据素养,具备敏锐的数据感觉和分析能力,在海量的数据库信息中,能够分辨出有价值的数据,挖掘背后的故事,拟成有价值的新闻选题,在此基础上,如果能够基于数据库和数据分析建立一个数据模型,就能够对同类的信息进行监测,从而写出预测性的新闻报道,进一步提升新闻的价值。比如在2014年的英国大选中,《卫报》“数据博客”的记者西蒙·罗杰斯(Simon Rogers)就通过对推特(twitter)上用户发表的内容和评论进行实时数据监测,把保守党、工党、绿党等五大政党在不同地区的政选活动热度变化制成了动态图,用来观测哪些是投票活动和关注的热门区域。五个党派分别用不同颜色的闪光点表示,当视频点击播放时,光点闪烁的越璀璨夺目,说明在这个地区的该政党得到的投票和关注越多。
(三)营造“数据闭环”驱动数据创新
在这个数据就是生产资料的时代,如何对数据进行循环利用也是数据挖掘与分析的一个重要议题。“数据闭环”指的是从数据的生成、采集、聚合、集成到数据挖掘和分析的过程中,由各种数据来源、数据采集方式、数据库、数据挖掘技术、数据模型和数据产品组成的一个环状数据运营体系。除了建设专业数据库和提高记者的数据素养,媒体本身乃至整个业界都应该具有利用数据、培养数据的意识,形成一个可持续运营的循环体系,这样才能促进数据创新,催生更多佳作。大数据新闻的核心价值在于数据,而数据价值的挖掘不仅仅局限于一次性的价值挖掘,也可以是基于对数据的循环利用。数据库本身需要不断更新和完善,数据挖掘也是。因此,如果能够建立一个可再生的数据循环体系,采集数据、运营数据、创造数据产品和模型,然后再反过来,基于数据模型培养新的数据,同时完善旧的数据,以数据“养”数据,打造数据新闻循环生产体系,同时也会形成数据自然生长和循环利用的密闭型生态系统,使数据闭环“转起来”。这种基于生物逻辑的数据循环和生产方式,会赋予大数据新闻持续的创新动力,从数据决策到数据挖掘皆是如此。
比如AVOS公司基于用户行为数据分析推出的个性化新闻类阅读产品“美味爱读(ReadWise)”,就是基于对用户阅读数据和反馈信息的循环利用。AVOS的目标是解决互联网信息碎片化、发现有效信息成本增加的问题。Delicious是AVOS最核心的产品之一,帮助用户通过书签服务来梳理、检索自己在互联网中的所得。AVOS中国团队的工程师在分析书签数据时发现,用户在阅读器的书签内留存并查阅知识、新闻和数据是最典型的使用场景,其中,新闻占了很大一部分比例。消费者感兴趣的是一些特定的话题,但为了能看到感兴趣的内容,要自己从各个频道进行筛选。所以美味爱读会跟踪文章在互联网上的传播情况,把引用数作为判断文章价值的重要标准之一。同时发布时间和文章受评论的状况也会影响它在阅读器里的排序。在此基础上,美味爱读又增加了“焚毁”和“评论”两个功能。“焚毁”就是让用户去除自己不喜欢的内容,系统通过收集这些用户反馈,可以做出更加个性化的推荐。⑹长久以往,就形成了一个自动化运营的数据新闻“闭环”系统,完善个性化推荐的内容
数据分析咨询请扫描二维码
数字化转型是企业提升竞争力和实现可持续发展的关键路径。面对快速变化的市场环境,以及技术的飞速发展,企业在数字化转型过程中 ...
2024-11-15CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13在现代银行业中,数字化用户行为分析已成为优化产品和服务、提升客户体验和提高业务效率的重要工具。通过全面的数据采集、深入的 ...
2024-11-13在这个数据飞速增长的时代,企业若想在竞争中占据优势,必须充分利用数据分析优化其营销策略。数据不仅有助于理解市场趋势,还可 ...
2024-11-13数据分析行业的就业趋势显示出多个积极的发展方向。随着大数据和人工智能技术的不断进步,数据分析在各行各业中的应用变得越来越 ...
2024-11-13市场数据分析是一门涉及多种技能和工具的学科,对企业在竞争激烈的市场中保持竞争力至关重要。通过数据分析,企业不仅可以了解当 ...
2024-11-13数据分析与数据挖掘是数据科学领域中两个关键的组成部分,它们各有独特的目标、方法和应用场景。尽管它们经常在实际应用中结合使 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13作为一名业务分析师,你肩负着将业务需求转化为技术解决方案的重任。面试这一角色时,涉及的问题多种多样,涵盖技术技能、分析能 ...
2024-11-13自学数据分析可能看似一项艰巨的任务,尤其在开始时。但是,通过一些策略和方法,你可以系统地学习和掌握数据分析的相关知识和技 ...
2024-11-10Excel是数据分析领域中的一款强大工具,它凭借其灵活的功能和易用的界面,成为了许多数据分析师和从业者的首选。无论是简单的数 ...
2024-11-10