大数据时代的网络分析,如何全盘挖掘大数据
我们生活在一个互联实体(entities)构成的复杂世界中。人类涉足的所有领域,从生物学到医学、经济学和气候科学,都充满了大规模数据集。
这些数据集将实体(entities)模拟为节点、节点之间的连接被模拟为边(edges),从不同且互补的角度描述着复杂的真实世界系统。这些网络化数据是特定领域信息的新的丰富来源,不过,目前,大部分信息却隐藏在这种复杂连接模式(wiring patterns)中。
首当其冲的就是解码这些模式,因为计算分析大型网络通常会很棘手,以至于我们关于这个世界的许多疑问都无法得到准确回答,即使我们拥有不受限制的计算机性能和时间[1]。因此,唯一的希望就是近似地回答这些问题(亦即启发式地)并且证明在最糟糕的情况下,这个近似回答距离确切的未知答案有多远。
本期《科学》中, Benson 等人[2] 往这一方向迈出了重要的一步——提出了一种可升级( scalable)的启发式框架:用于基于连接模式的实体(entities)分组,以及用发现的模式揭示出几个真实世界网络化系统的高位阶组织原则。
摘要:网络是理解和建模物理、生物、神经科学、工程学和社会科学中复杂系统的基础工具。许多网络以展现出能够在单个节点和边的水平上被获取的丰富、低阶连接模式著称。但是,大部分复杂网络的高阶组织——在小型网络子图(subgraph)水平上——在很大程度上仍然未知。我们开发出了一种通用框架(generalized framework),用于在高阶连接模式基础上聚类网络。该框架为已获聚类的最优性提供了数学保证,并能扩展到带有数十亿个边的网络。该框架也揭示了许多网络的高阶组织,包括神经元网络的信息传播单元和交通运输网络的枢纽结构。结果表明,这些网络展现出了丰富的高阶组织结构,该结构可以在高阶连接模式的基础上通过聚类的方式揭露出来。
为了挖掘网络化数据连接模式,揭示出功能组织,仅考虑简单描述符号是不够的,比如每个实体(亦即节点)和其他实体(亦即节点度,node degree)的互作用数量,因为在这种简单描述符号层面,两个网络可能等同,但它们的连接结构非常不同(见图)。
相反,Benson 等人使用了叫做图元 (graphlets, 例如三角形) 的高阶描述符,它建立在小型子网络基础上,这些小型子网络来自一个数据中的节点子集,这个节点子集包含了出现在数据中的所有交互作用[3] 。他们仅用少数几个跨区域边界的特定图元实例,就鉴别出富含某个特定图元类型实例的网络区域。如果这种图元类型是预先指定的,那么,这种方法就能发现通过这个图元互连的节点, 它也帮助 Benson 等人将线虫神经元网络(控制某类行动的网络)中的20个神经元成功地组在一起。
该方法正是通过这种方式将局部连接模式 ( local wiring patterning)与由之强加的高阶结构模块化结合起来的,揭示出网络化数据中高阶功能区域。
网络结构
下述四种网络大小相同(节点和边的数量也相等),每个网络的每个节点度(与其他节点交互作用的数量)也相同,但是,每个网络却结构各异。
这一研究结果的重要性在于:可用于大范围的网络化 RNA 以及被翻译成蛋白质,它使用各种各样的三维结构来实现特定的细胞功能。分子互动会被不同的高通量生物技术捕获,而且还可以用不同网络类型加以模拟。对分子网络的个体分析已经揭示出:拥有相似功能的分子趋于聚集在一个网络中并以相似的方式连接起来 [13] ,让我们更好理解基因功能 [6] 以及细胞的分子组织 [7]并且促进了疗法(therapeutics)发展 [8-12]。
图一:高阶网络结构以及高阶网络聚簇框架。(A)高阶结构由网络模体(network motifs)获取。例如,图为所有 13 种互连的三节点有方向模体。(B)基于模体 M7 的网络的聚类。对于给定的模体 M,我们的架构的目标是找到能最小化模体传导率(motif conductance)ΦM(S) 的节点的集合 S;模体传导率的定义是模体切割(motif cut)(实心三角形切割)的数量与模体 S 或模体
(13)例子中节点的最小数量之比。本例中有一个模体切割。(C)高阶网络聚类框架。给定的一个相关的图形和模体(本例中为 M7)后,该框架通过计数双节点在该模体中共现(co-occur)的次数来构成一个模体邻接矩阵(motif adjacency matrix)(Wm)。然后再计算该模体邻接矩阵的拉普拉斯变换(Laplacian transformation)的特征向量。由该特征向量的成分提供的节点排序 σ 产生了不断变大的 r 的嵌套集合(nested sets)Sr={σ1,...,σr}。我们证明了带有基于传导率 ΦM(Sr) 的最小模体的集合 Sr 是接近最优的高阶聚类。
然而,就所研究现象而言,每种网络类型提供的信息都是有限的。例如,一种疾病很少是单个变异基因或单个遭受破坏的分子相互作用所致,而是细胞内、细胞间互动造成的多重扰动产物。
网络医学 (network medicine) 将网络分析和数据整合结合起来,挖掘补充数据中的财富,并揭示出貌似无关疾病之间的普遍分子机制 [8-11]。与之相反,患有看似相同疾病的病人,发病的分子机制可能不同,他们对治疗的反应也可能不同(例如:癌症异质性)[8-11]。因此,个性化医疗的目的在于基于单个病人基因和分子特征,为病人提供个性化疗法,这可能涉及到根据不同病患分组,改变已知药物用途,进而缓解开发新药所需成本和时间给制药行业带来的瓶颈 [11,12]。
对于这些尚处初期的领域来说,分析和整合网络数据的方法将是基础,只有全盘挖掘所有可得基因、分子和临床数据 ,才有可能全面理解相关情况[11]。
图二:秀丽隐杆线虫神经元网络的高阶聚簇 (A)四节点双扇模体(The four-node bi-fan motif),在神经网络(1)中被过度表达。直观上看,这个模体描述了从左边节点向右边节点传递合作繁殖信息的过程。(B)秀丽隐杆线虫额叶神经元网络的高阶聚簇以(A)中的模体为基础。这个聚簇包含了作为信源的 3 个带有多个外向连接的环状运动神经元(REML,-V,和 -R;青色),6 个作为目的地信息的带有多个内向连接的内唇感觉神经元(IL2DL ,-VR,-R,-DR,和 -L;橘色),4个 作为中介的URA 运动神经元(紫色)。这些 RME 神经元已被提为这个神经环的先导,而 IL2 神经元是已知的瞬眼调节器,同时这个高阶聚簇会暴露它们的组织。这个聚簇也揭示了 RIH 是信息处理过程中的一个关键媒介。这个神经元有来自 3 个 REM 神经元的传入链接,与 6 个IL2 神经元中的 5 个相连的外向连接,和该聚簇中总数最大的连接,它连接了该聚簇中任何一个神经元。(C)整个神经网络环境中的II-lustration 高阶聚簇。节点位置在这些神经元的真正二维空间嵌入的地方。大部分信息从左向右流动,而且我们看到 RMEV,-R,和 -L与 RIH 是作为右边神经元的信息源。
全面分析互连世界,需要概念以及方法论范式的转换。
不要孤立分析单个数据来源,例如基因序列比对( aligning genetic sequences )(它已经革新了我们对生物学的理解)[14],在单个框架中比对所有类型的数据——「数据比对(the data alignment)」才会带来更为深入的洞见。
例如,一个细胞所有基因的和分子互动数据,可以整合进同一个计算框架中,而且我们需要研发出一些方法,在一个新的「细胞比对(the cell alignment)」范式中比对这些「整合细胞(integrated cells)」。
同样,我们已经分别研究过了世界经济系统,包括贸易网络、金融交易、投资等[3,5] 。但是,对财富起源、危机和经济复苏的理解只能来自对比和整体分析所有层面的网络化经济和地缘政治数据。同样,气候测量的结果也是通过不同网络类型编码跨地理区域的各种气候元素获得(例如:风速、气压和温度)之间的关系 [4],而且,全盘的数据对齐分析或许有助于解释这种复杂动态系统,并且更好预测人为改变带来的影响。
可以抓住数据高阶结构复杂性的数学形式体系(Mathematical formalisms),连同从那些数学形式体系中计算和提取信息的算法[15],应当得到发展和应用。将 Benson 等人 的框架扩展到用于在这些整合和对齐的数据系统中发现高阶结构,可能是未来的发展路向。
源于数据规模巨大、复杂、异质、噪音以及不同时空尺度的计算问题,仍然需要加以解决。
图三:加拿大和美国机场网络的高阶谱分析。(A)在我们的分析中使用的三种高阶结构。每一个模体。每一个模体都「挂靠」于蓝色的节点 i 和 j,这意味着我们的框架只能寻找将蓝色节点聚类在一起。特别地,该模体邻接矩阵会根据第三个中间节点(绿色方块)而为 (i,j) 边增加权重。前两个模体对应于高度互连的城市,而最右边的模体是非枢纽与非枢纽的连接。(B)美国人口最多的 50 个城市,每个城市分别对应于网络中的一个节点。边厚度正比于模体邻接矩阵中的权重 Wm。厚的黑色线表示较大权重对应于流行的主线路径。(C)由 Wm 的标准拉普拉斯的前两个非平凡特征向量(nontrivial eigenvector)的它们的对应成分提供的节点嵌入。其中标注城市中有 8 个城市是美国最大的枢纽(绿色)、有 3 个是西海岸非枢纽(红色)、还有 3 个是东海岸的非枢纽。主要的谱坐标(spectral coordinate)(从左至右)说明了城市的枢纽程度,而第二个谱坐标(从上至下)表示的是西到东的地理分布。(D)由标准的、基于边的(非高阶)标准拉普拉斯的前两个非平凡特征向量中的对应成分提供的节点嵌入。该方法没有获取由高阶方法发现的枢纽和地理。比如,最大的枢纽亚特兰大位于嵌入的中心,和非枢纽城市 Salina 紧邻。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16