大数据与侦查模式变革研究(1)_数据分析师培训
大数据在西方广泛应用于总统选举预测、商业营销、疾病预防、金融分析、教育变革,也运用于社会监控和预测、治安管理、恐怖主义打击等等方面。
运用大量数据进行犯罪侦查和控制始于1994年纽约市的警察部门启用的一个新的治安信息管理系统,即CompStat(Computer Statistics的缩写)。CompStat是通过比较数据统计报告为基础来确定警力资源分配、犯罪预防和打击对策[5]。大数据时代的到来,西方更是着力建构大数据驱动的犯罪侦查和控制体系。大数据驱动犯罪侦查和控制体系利用大数据帮助警察分析历史案件、发现犯罪趋势和犯罪模式;通过分析城市数据源和社交网络数据,预测犯罪;利用大数据,优化警力资源分配,从而提高社会和公众安全水平[6]。大数据已使犯罪侦查和控制模式发生根本性变革,利用大数据提升犯罪侦查和控制能力是未来的发展方向。
公安部部长郭声琨强调要大力加强大数据时代提升维护公共安全和服务人民群众的能力和水平[7]。我国各级公安机关已开始有意识运用大数据推动犯罪侦查和控制。然而大数据不仅是一个技术问题,也带来了侦查理念、方式、机制的变革。我国学界的研究集中在大数据技术应用研究,对大数据带来的侦查理念、方式、机制的变革的研究偏少,也不够深入,迫切需要更为系统的、深入的研究。
一、复杂的犯罪态势与大数据时代犯罪的数据化生态
当下,犯罪呈现出更加严峻和复杂的态势。首先是犯罪总量大,犯罪率逐年上升。据统计,仅2012年公安机关刑事案件立案的案件数为6551440起,检察机关批捕、决定逮捕犯罪嫌疑人的案件数为680539,人数为986056[8]。近二十多年来,中国犯罪率呈逐年上升趋势,刑事案件立案数平均每年增长22%以上,超过了全国GDP的增长。①其次是犯罪智能化。犯罪是一种社会存在,科学的发展渗透到犯罪的方方面面,提升了其能力和危害程度。这表现为两个方面:一是运用科学思维实施的犯罪,主要表现为犯罪思维严密,犯罪前经过周密部署和策划,犯罪过程渗透着科学思维和谋略。二是利用科学技术实施的犯罪,突出表现为数字化犯罪。以利用网络犯罪为例,2012年,全国公安机关累计破获涉网违法犯罪案件11.8万余起,抓获犯罪嫌疑人21.6万余人。据赛门铁克公司2012年9月发布的诺顿安全报告估算,2011年7月至2012年7月,中国有超过2.57亿人成为网络违法犯罪的受害者。网络违法犯罪所造成的直接经济损失达2890亿元人民币,受害者人均蒙受的直接经济损失约1200元人民币[9]。第三,犯罪时空的复杂性。现代科技的发展,使得犯罪时间非线性,犯罪空间缺席性,时空组合的多维、多样化和任意性[10]。第四,案件因果联系复杂。相对于传统的静态、单一社会来说,现代社会是一个动态、复杂社会。在动态、复杂社会中,因果联系具有非线性、偶合性、多因性、断裂性,犯罪的因果联系往往难以确定。
计算机及网络技术的发展,使得当下社会已经进入了大数据时代。大数据时代首先是数据记录时代。在数据记录时代,数据记录成为默认模式[11],人类社会处在被无所不在各种各样传感器和微处理器构成“万维触角”的数据网络记录之下,手机、网络、监控探头、射频技术等等无所不在地记录着我们的行为乃至我们的思想。“早上出门,电梯的摄像头记录着我们的出行时间;开车上班,道路的摄像头记录着我们的位置和车速;工作期间,网页记录着我们的浏览习惯和搜索记录,电话记录着我们的联网对象和通话时长;下班回家,购物记录界定着我们的职业身份、家庭背景甚至性格特征,电视机顶盒记录着我们的收视习惯和价值品位……”[12]“在数字世界里,我们都会留下电子‘脚印’或电子‘指纹’。”[13]20“我们正处于一种不断变化却日趋紧密的被监视状态中。事实上,现在我们的一举一动都能在某个数据库中找到线索。”[14]12
狡猾的犯罪者能有例外而成为“数据隐士”吗?要成为“数据隐士”,意味着你要完全脱离现代社会系统,不仅不能使用数字化产品,还要完全意义上不食“人间烟火”。因为现代社会几乎被数据化了,一旦你与现代社会系统进行交换,就很有可能被数据捕捉和记录。然而,这并不是说犯罪者的具体犯罪的任何要素或片段如犯罪时间、犯罪空间、犯罪行为、犯罪工具等等都会直接且完整无缺被数据记录和储存;而是说犯罪者隐藏的犯罪信息总是被相关的海量数据从不同的侧面记录着,即便是某些甚至是主要或关键的犯罪要素或片段缺失,也可以通过不同侧面相关海量数据联接、分析,拼接或描画出犯罪过程。因此,在大数据时代,不要说数字化犯罪,即使传统手段的犯罪,都可以说落入了一种“天网恢恢,疏而不漏”的网络记录和存储体系,数据化就是当下犯罪的现实生态。
二、大数据驱动的侦查模式是时代的必然选择
模式指经过提炼和抽象的标准样式。侦查模式反映了侦查要素的结构关系和运行逻辑。侦查模式可以按照不同的标准进行分类。学界按照侦查是否运用信息科技手段,把侦查模式分为传统的侦查模式、信息主导侦查模式。然而,如果从信息论的视角来看,传统侦查模式与信息主导侦查模式的本质区别不是是否运用信息,而是信息记录、存储、提取以及分析方式上的根本差别。按照侦查所能运用信息的记录、存储、提取以及分析方式,可以把侦查模式划分为传统侦查模式、业务信息主导的侦查模式和大数据驱动的侦查模式。学界一般将业务信息主导的侦查模式和大数据驱动的侦查模式合称为信息主导侦查模式,但两者之间不仅是发展阶段上的差异(大数据驱动的侦查模式是在业务信息主导侦查的基础上发展起来的),而且在信息类型、信息提取和研判方式上也有根本差异,最重要的是由此差异而带来侦查理念、特征和机制上的根本变革。
传统侦查模式是在信息存储、提取和分析上几乎没有什么科技含量的模式。传统社会,人类对信息的记录和存储方式主要是人的大脑和书写体系(传统社会由于信息记录的需要发展出一整套书写体系,由此而产生了许许多多按时间汇集的分门别类的书写档案库)。对于犯罪的信息记录来说,除了大脑和书写档案外,犯罪现场也以物质交换的形式记录着犯罪信息。因此,传统的侦查主要手段是调查访问(对大脑储存的信息提取)、书写档案的查询。②人脑信息的存储和提取的特点是:分散在不同的人身上;信息的准确性差,受到外在环境和信息储存者自身感受能力、记忆能力等影响;信息缺乏稳定性,信息量和准确性随着时间变化而衰减;信息能否提取以及提取的质量,首先取决于能否找到储存信息的人,其次取决于侦查人员的询问技术(经验)、被询问人表达能力、情绪、配合态度等等多种因素。书写档案记录信息的优点是准确性高、稳定性强,但其有两个重大缺陷:一是提取困难。人们要找到其中一点有用信息,就得把所有的资料翻阅一遍;尽管后来建立了图书馆式的目录索引,但查找起来依然耗时费力。二是不能提供直接的犯罪信息。书写档案不可能是犯罪的实时记录,只可能是犯罪破获后一种事后登记,因此这种档案对于需要破获的犯罪来说,不能提供直接的犯罪信息。传统侦查的信息分析研判主要依靠侦查人员的经验,有经验的侦查人员往往成为是否破案的关键。总之,这种模式科技含量低、粗放型特征突出,能否破案主要取决于侦查人员的经验和投入的人力多少,不仅如此,还取决于侦查人员的运气。这对于传统静态、单一的社会及其犯罪也许能够适应,而与动态、复杂的社会及其犯罪几乎完全不匹配。
业务信息主导侦查模式是在信息技术引领下的以业务信息存储、提取和研判为基础的侦查模式。随着信息技术的发展,各种各样信息记录和存储设备被广泛使用。信息记录和存储不再完全依赖人脑和书写档案,而是电子化的记录,存储设备成为人类记录和存储信息的主要方式。这些设备代替人脑和书写档案实时记录着人类的行为,也记录了犯罪行为。所记录和存储的信息从来源和存储分布来看,形成于不同的业务经营并分布储存在不同的业务信息库中,如商家记录和存储人们的消费信息、银行记录和存储了人们的金融交易信息、医院记录病人信息等等。这些信息库缺乏整合,相互之间形成信息孤岛,信息冗余和信息孤岛成为信息存在的基本生态。就业务信息主导侦查模式来说,其主要特征是:一是侦查部门依赖于公安平台所累积的结构化的数据库主要用于人、事、物的核查、比对,实时犯罪信息仍然主要依靠人工采集。二是信息提取依然困难。不可否认,相比传统侦查模式,业务信息主导的侦查模式针对公安机关所累积结构化信息来说,确实大大提高了查询、比对效率,但是面对越来越多地被累积的不同来源、不同结构的数据,尤其是大量的半结构化和非结构化数据,既缺乏数据整合的技术和机制,也缺乏信息提取的技术手段。结构化数据是先有模型后有数据,大多具有事后登记的性质(也有少量的实时记录的数据如旅馆住宿等),很难有实时犯罪行为记录信息,其主要价值在于对人、事、物的核查;而正是不同来源的半结构化、非结构化数据中实时记录了犯罪的“蛛丝马迹”。三是信息分析、研判仍然主要依靠侦查人员的经验。业务信息系统主要用于简单的查询、比对,但是不能进行智能化的算法分析。总的来说,这种侦查模式面对当下的犯罪态势,尤其是流动性犯罪、数字化犯罪等,难有成效。
大数据驱动侦查模式是建立在大数据和云计算平台的基础上,是大数据时代的信息主导侦查模式的升级换代。在大数据时代,大数据驱动的侦查模式是一种时代的必然选择,这不仅在于复杂的犯罪态势及其数据化生态,更在于大数据技术使得这种选择成为现实。
首先,犯罪的数据化生态是大数据驱动侦查模式的现实基础。面对当下复杂的犯罪态势,人们似乎有点不知所措。犯罪的控制某种程度上是一种侦查技术对犯罪技术保持优势。然而现代性的发展使犯罪者具有更强的匿名性、流动性等,从而一度打破了公安机关曾经具有的优势,这也是如今犯罪爆发性增长的原因之一。然而犯罪作为一种社会存在,当社会成就犯罪条件时,也会给人类提供制约其的机会。犯罪的数据化生态根本改变了犯罪信息的记录和存储方式,极大扩大了“社会记忆”,大数据技术将彻底改变侦查技术与犯罪技术之间的对比关系。因此,我们必须改换传统的侦查模式,采用大数据驱动侦查模式以控制犯罪和打击犯罪。
其次,在大数据时代,侦查所面对和所能处理的数据不再是小数据,而是大数据。如今,侦查所面对和所能处理的数据具有体量大、类型多、价值密度低的特征。“池塘”和“大海”最容易发现的区别就是规模[15]。过去侦查,即使是业务信息主导侦查阶段,所面对或所能处理的数据量相当于“池塘”,而与此相对照,现代侦查所面对和能处理的数据量则是“大海”。不仅如此,现代侦查所面对的则是数据的多样性:从结构上看,不仅有结构化数据,还有大量半结构化和非结构化数据;从数据类型看,有业务数据、用户原创数据、传感器感知数据;从数据表现形式看,有文字、图片、音频、视频、链接等;从犯罪案件构成角度看,有人及其关系、行为、物、时间、空间和主观意图数据。数据的价值密度低。在巨量的数据中,有关犯罪数据混杂其间,仅仅是其中小小的“浪花”,但其弥足珍贵。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒[16]。
第三,大数据技术能从海量的数据中对犯罪信息进行提取、分析研判以及预测未来。大数据是其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、处理的数据。而以云计算为依托的大数据技术可以突破常规技术成本和时限的要求。具体来说,其一,大数据技术能适时提取和分析处理多结构多源数据,尤其是半结构和非结构化的数据,能够从海量的、杂乱无章的数据中抽取出大量的与犯罪相关的细节、点滴片断、不同侧面数据、信息,并且能把“数据联系起来、信息点连接起来、片断串联起来”[13]29-30,从而能将表面看来毫无意义、互不关联的数据碎片拼出一幅清晰完整的犯罪图画。而对于确定一个犯罪嫌疑人的身份来说,也许只需要四个信息点就足够了。其二,大数据以云计算为依托,能够在合理时间内进行信息提取和分析。以周克华案件为例,南京警方动用上百名警力花费了数天时间对视频监控数据进行人肉搜索,而运用大数据技术也许只要几个小时就足够了。其三,大数据技术,一个最为根本的突破是能够运用海量数据进行算法分析,进行信息研判,从而帮助我们认识过去,分析原因,揭示犯罪发生的规律。最后,大数据能在分析过去中寻找有意义的模式,从而预测未来,为我们优化警力资源配置、打击犯罪提供先机。
三、大数据驱动的侦查模式的理念变革
黑格尔指出,“理念是任何一门学问的理性”[17],并认为理念中包含着“某种预想的东西”,具有前瞻性、导向性和设计性[18]。侦查模式转换首先是理念转换。侦查模式中的理念就是指贯穿在侦查模式中反映了侦查规律的并具有引导、支配、决定侦查活动的观点、看法、信念。大数据驱动侦查模式不仅是一种新的工作模式,更是一种新思维、新理念。在大数据时代,侦查要确立的理念有:
在线、开放的理念。大数据首先是在线数据。大数据不仅是体量大,更是实时记录社会的复杂动态数据:用户原创和各种传感器感知数据,而正是这些数据混杂了犯罪的“蛛丝马迹”。对于侦查来说,公安大平台累积的结构化数据是重要的,尤其是对人、事、物的核查具有重要价值,但是很难有实时的犯罪记录。大数据驱动的侦查就是在公安大平台累积的结构化数据的基础上,对不断变动用户原创和各种传感器感知数据进行提取、分析和处理,获取信息。因此,对于大数据驱动的侦查,我们必须坚持在线和开放的数据理念,以获得我们需要的海量数据,进而分析、处理这些数据。
数据主导侦查理念。大数据时代,数据是犯罪的生态,侦查过程就是数据储存、提取和分析过程,数据贯穿于侦查的各个环节,“让数据说话”成为侦查的基本思维。数据主导侦查的理念至少包括以下三个方面的内容:首先,有关犯罪的一切现象皆可数据化。凡事皆可量化,皆可数据化[19]25-26。不仅与犯罪相关的有形之物如时间、空间、人的特征(生物识别特征、行为习惯等)、行为、手段、物等可以量化和数据化,那些与犯罪相关的无形之物如人的价值观念、态度、情绪等等也可以量化和数据化。其次,大数据是侦查的基础资源,是侦查的工具箱。侦查就是对数据开矿式的挖掘和分析,侦查能否成功某种程度上取决于对大数据资源的提取、分析能力;运用大数据各种分析技术,可以获得我们所需要的犯罪信息。最后,在大数据时代,数据居于侦查过程的核心地位,支配着侦查的运行。犯罪现场重建、侦查决策、侦查途径的选择、侦查分析、数据摸排、侦查预测等等无不围绕数据运行。
相关性理念。大数据是通过量化两个数据值之间的数理关系来确定相关关系。相关关系强,是指当一个数据值增加时,另一个数据值很有可能随之增加[3]71。传统侦查,是按照因果关系和数据结构的标准③来采集数据和分析数据。到大数据时代,我们能分析、运用几乎所有相关数据,收集数据不必再拘泥于因果关系和数据结构标准,而是坚持相关性标准,不仅采集结构化数据,还要采集半结构化和非结构化数据。这种相关关系虽然不能直接揭示内在的因果关系,但是对于犯罪侦查和控制来说,其展现的相关关系仍具有较强的效用价值。
相关关系能让侦查人员全方位、多角度地思考分析案情。相关关系虽然不追求精确性,但是其追求丰富性,不拒绝任何机会,尽可能去创造和利用机会。通过相关关系,才能将看起来没有联系的信息内在地联系起来,从而更为全面地认识案件情况。这也许可以帮助我们发现破案线索,理清破案思路,划定侦破范围。
相关关系可以给我们进一步确定因果关系以指引,从而确定犯罪原因和证明犯罪。相关关系的分析是分析因果关系的基础。相关关系并不必然是因果关系,但因果关系必然是高度相关关系。通过相关关系,我们可以进一步探究其中是否存在因果关系,从而证明犯罪。
相关关系的一个重要价值是可以监控犯罪情势。如上所述,当下影响犯罪的原因是纷繁复杂的,要确定犯罪发生的原因相当不容易甚至不可能。对于侦查人员来说,重要的也许不是去理清犯罪原因,而是控制犯罪。通过相关关系,确定关联物,进而可以监控犯罪情势,从而使我们有效配置警力资源,打击犯罪。
通过相关关系,可以预测犯罪。大数据的核心价值是预测。通过收集具有相关关系的数据,建立大数据模型,我们可以从微观上预测什么时间、什么地点、什么人、什么类型等等的犯罪容易发生,也可以从宏观上预测犯罪趋势,这为我们防范和打击犯罪提供了更好的机会。
线上破案与线下证明相结合的理念。大数据使得发现和确定某一犯罪嫌疑人似乎变得相当容易。但是数据只是事实的镜像,并不等于就是事实;④而且大数据的算法逻辑(强调相关关系、确定的只是一种概率,甚至由于噪音等因素会出现致命的误差)与法律证明逻辑(强调因果关系和排除合理怀疑标准)存在差异,因此,犯罪侦查尚需要进一步按照法律体系的操作要求进行证明。即使我们通过大数据可以确定犯罪嫌疑人,达到了排除合理怀疑的标准,我们也必须把大数据的算法体系转化为符合法律规范要求的证明体系,把数据确定转换为法律确定。然而,线上破案和线下证明并不是割裂的,大数据能对我们证明起引导作用,帮助我们寻找证据,确定因果关系。因此,在大数据时代我们既不能抛弃相关关系,只追求因果关系,也要必须防止用相关关系代替因果关系,防止用预测来代替事实。
数据分析咨询请扫描二维码
统计学基础 - 理解统计学的基本概念和方法是数据分析师必备的技能之一。统计学为他们提供了处理数据、进行推断和建模的基础。 数 ...
2024-11-25数据分析师在如今信息爆炸的时代扮演着至关重要的角色。他们不仅需要具备扎实的数据分析技能,还需要不断学习和适应不断发展的技 ...
2024-11-25数据分析师的工作职责涉及多个关键方面,从数据的获取到处理、分析再到可视化,旨在为企业的决策提供有力支持。让我们深入了解数 ...
2024-11-25数据分析师:洞察力量的引擎 数据分析师的兴起 数据分析师行业目前正处于快速发展阶段,市场需求持续增长,薪资水平也有所提升。 ...
2024-11-25数据收集与整理 - 从各种来源收集数据,清洗和整理以确保数据质量和可用性。 数据分析与建模 - 运用统计学方法和机器学习模型对 ...
2024-11-25数据分析是当今社会中不可或缺的一项技能,涵盖了广泛的工具和技术。其中,掌握各种数据处理函数对于数据分析师至关重要。本文将 ...
2024-11-25“大数据治理”是一个涵盖广泛的复杂概念,其核心在于确保大规模、多样化的数据资源能够被有效管理和利用。不仅涉及数据的采集、 ...
2024-11-25一、引言 背景介绍 随着信息技术的快速发展和互联网的普及,大数据已经成为现代社会的重要资产。大数据的兴起不仅推动了各行各业 ...
2024-11-25《Python数据分析极简入门》 第2节 7 Pandas分组聚合 分组聚合(group by)顾名思义就是分2步: 先分组:根据某列数据的值进行 ...
2024-11-25数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22