大图数据科学: 图数据中的推理
我们正淹没在大数据的河流里,大数据并非是平的,而是多模态、多关系、兼具时空、多媒体的。目前的AI技术,特别是机器学习,它将丰富复杂数据平放到矩阵的形式当中。我们当下所做的一些工作很可能忽视了数据当中的很多丰富信息,其中很重要的一点就是错误假设了数据之间的相互关系。作为研究者和开发者,我们需要考虑到这些图的结构和相关的环境因素。
我想首先和大家说说三种常见的图数据推理模式,最简单的一种叫做协同分类。如果一个图的部分结点已经有标签,我们就可以推理出其结点的标签。社交网络就是很典型的例子,其中包含着非常丰富的信息和联系,通过信息和数据去做推理可以得出某位朋友的饮食习惯或其他偏好。基于数据在已有的信息,设置不同的权重,我们能够做一些简单的推理,充分利用本地信息和标签,再去推理出一些之前没有加入的标签信息。
第二种叫做链接预测,我们不仅仅可以预测某一个结点的标签,还可以推断结点之间的链接。比如说有一个通讯网络,我们能够通过通讯信息推理出网络中所有人的层级,并通过不同种类的信息判断不同人之间的关系。
第三种是实体解析,任务是确定哪些结点指向同样的实体,我们就能从中获得一些信息。
对我个人而言,我最喜欢的图推理问题是图识别(发现可观察图结构所潜含的真实图结构),它能够把上面提到的的三个小模型结合到一起。还是以邮件通讯网络为例,通过对邮件信息进行推理就可以发现这几个人之间的关系及角色。我们需要对每一个信息进行研究,研究他们的实体状况和邮件状况。具体做法是首先对这些人进行分组,对之间的关系进行预测,并对实体身份做出判断。这其中也存在非常大的挑战,如何打造一个非常鲁棒的算法来理清其中的人物关系非常重要。
目前,统计学研究也在开发相应的算法,例如概率性推理和关系推理。有一个工具叫概率软性逻辑PSL,它是一种概率编程语言,即用描述性的语言对图上的问题进行描述。这个基础是,我们有属性、关系的逻辑表示,还有规则和约束来捕捉他们的依赖关系。PSL是一个这样的存在,它根据模板和数据来定义他们之间的概率分布用于推断。
PSL比较有意思的一点是,它通过将逻辑规则映射为凸函数,实现了大规模推断的可扩展性。更有意思的是,这个映射的合理性是用已有的理论计算机科学的结论证明的,用MAX SAT的近似随机算法结合统计学、机器学习、图模型方面的理论。之后我们就可以将从理论计算机科学当中的一些东西转化到实际的图识别应用当中去,最后将这种软性的逻辑和AI进行结合,在不同的情景下,很多时候你们会得到同样的优化结果。在我看来,我觉得我们现在能看到的这些东西仅仅是冰山一角,我们称之为叫Hinge-loss马尔科夫随机域。在这里有包含着很多具体微小的细节,每一个逻辑规则实际上都和某一个函数是相关的,相关的函数实际上都会造成一定的依赖损失。
在图识别领域,PSL在推理速度和准确度上的表现和离散的马尔科夫规则相比都要更好,且从数据当中学习权重和变量的效果也更加出色。由此PSL可以衍生出很多具体的应用,首先是分类问题。以在线讨论为例,PSL通过观察大家讨论的文字内容和行为数据,就能够很好地来预测用户的观点。再比如大数据和AI领域常常需要聚合信息做推荐、预测甚至打分,我们有来自社交互动、图像方面的各种信息,其实这些信息中存在一定的相似性。PSL的优势就在于它具有非常好的扩展性,特别是逻辑相似性较高的情况下扩展也会更加容易。
另外一个领域可能和安全相关,通过研究社交媒体当中的垃圾邮件可以进行协同推断,哪些可能是垃圾邮件。还有一个问题是如何把视觉的、文本的、关系的数据全部融合起来,去推测使用用户的个性。我们把所有的信息结合起来就能够预测一些人口学特征,比如性别、年龄,同时还可以预测人们在社交媒体当中的信任。
最后我想和大家分享有关知识图的建构,如何获取足够多的数据来实现知识的自动架构是一项长期以来的挑战。我们能够结合统计学的数据信息以及一些相对简单的语义信息,把它们和我开始提出的图识别问题结合起来,并在做图识别时找到它的结点、标签以及结点之间的关系,在此之上可以再融入一些本体的限制,同时还可以融入一些关于信息和其他来源的数据。把它们相结合能够产生比较好的效果,而且速度可以得到显著提升。
我们需要对图进行更多的机器学习,考虑各种关联结点之间的复杂关系。另外,当我们在做数据驱动技术时需要思考究竟什么才是负责任的数据科学,如何检查数据并通过算法做出决策。我个人对PSL感到兴奋的原因就在于它的逻辑规则确实比一大批权重或是参数的算法更加容易解释。这个领域会有一些隐私和安全性的问题,这值得我们进一步研究;相伴而生的还有很多机遇,有更多社会、商业、科学、安全以及其他方面的应用可以去发现、去探索。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-04在现代商业环境中,数据分析师的角色愈发重要。数据分析师通过解读数据,帮助企业做出更明智的决策。因此,考取数据分析师证书成为了许多人提升职业竞争力的选择。本文将详细介绍考取数据分析师证书的过程,包括了解证书种类和 ...
2025-03-03在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2025-03-03数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-03-032025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-03-03大数据分析师培训旨在培养学员掌握大数据分析的基础知识、技术及应用能力,以适应企业对数据分析人才的需求。根据不同的培训需求 ...
2025-03-03小伙伴们,最近被《哪吒2》刷屏了吧!这部电影不仅在国内掀起观影热潮,还在全球范围内引发了关注,成为中国电影崛起的又一里程 ...
2025-03-03以下的文章内容来源于张彦存老师的专栏,如果您想阅读专栏《Python 数据可视化 18 讲(PyEcharts、Matplotlib、Seaborn)》,点 ...
2025-02-28最近,国产AI模型DeepSeek爆火,其创始人梁文峰走进大众视野。《黑神话:悟空》制作人冯骥盛赞DeepSeek为“国运级别的科技成果” ...
2025-02-271.统计学简介 听说你已经被统计学劝退,被Python唬住……先别着急划走,看完这篇再说! 先说结论,大多数情况下的学不会都不是知 ...
2025-02-27“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩稳定, ...
2025-02-26在数据分析工作中,你可能经常遇到这样的问题: 从浏览到消费的转化率一直很低,那到底该优化哪里呢? 如果你要投放广告该怎么 ...
2025-02-25近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的,尤 ...
2025-02-25挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-25在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-25以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-25“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-25在数据分析中,地图是一种非常直观的可视化工具,能够帮助我们更好地理解数据在地理空间上的分布情况。无论是展示销售数据、人口 ...
2025-02-25春风拂面,金三银四的求职季如期而至。谁都想在这场竞争里拿下心仪offer。 一份亮眼简历是求职敲门砖,面试紧张则可能让机会溜 ...
2025-02-24当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17