大数据的新算法:简化数据分类-CDA数据分析师官网

大数据的新算法:简化数据分类

2015-10-17

大数据的新算法:简化数据分类

如今，大数据时代悄然来临。专家用“大数据”的表达描述大量信息，比如数十亿人在计算机、智能手机以及其他电子设备上分享的照片、音频、文本等数据。当前这种模式为我们的未来展现了前所未有的愿景：比如追踪流感疫情蔓延，实时监控道路交通，处理紧急自然灾害等。对人们而言，想要利用这些庞大的数据，首先必须要了解它们，而在此之前我们需要一种快捷有效自动的方式对数据进行分类。

　　其中一种最为常用的系统，是一系列称之为簇分析的统计技术，这种技术能依据数据的“相似性”进行数据分组。来自意大利国际高等研究院(SISSA)的两位研究者基于简单且强大的原理设计了一种簇分析方法，被证明可以非常有效地解决一些大数据分析中遇到的主要典型问题。

　　数据集合可以视为多维空间的云数据点。这些点呈现不同分配方式：或稀疏地分布在一个区域，或密集地分布在另外一个区域。簇分析就是用来有效地鉴别密集型区域，基于基本的准则将数据分为一定数量的重要子集合，每个子集合对应一种分类。

　　“以一个面部图像数据库为例，”SISSA统计与生物物理系教授Alessandro Laio说，“数据库可能包含同一个人的多张照片，簇分析可以用来归类同一人的所有照片。这种类型的分析可用自动脸部识别系统来完成。”

　　“我们试着设计一种较现有方法更为有效的算法，来解决簇分析中典型的问题。”Laio继续补充说。

　　“我们的方法基于一种新的鉴定簇中心，比如子集合，”另一位研究者Alex Rodriguez解释道，“试想这样的情形，在无法访问地图中，却不得不鉴定全球所有的城市时，这无疑是一个艰巨的任务。”Rodriguez进一步解释道，“因此我们在做一种探索式的识别，尝试寻找一条简单的规则或是一种捷径来达成目标。”

　　“为了确定一个地方是否达到城市级别规模，我们可以让当地居民计数自己的‘邻居’，换句话说，他房子的100米内住了多少人。一旦得到这个数字，我们继续去确认每一个居民，他们身边最近的拥有最多邻居数的居民。借助这两组数据结果交叉的部分，就可以推断每个人所在居住区域人口的稠密程度，以及拥有邻居数最多的两家间距。就全球人口而言，通过自动交叉检测这些数据，我们能识别代表簇状中心的个体，这些个体就是不同的城市。” Laio解释道。

　　“我们的算法能够精确地完成此类计算，也适用于其他场景，”Rodriguez进一步补充说，此算法表现相当优异。Rodriguez对此有着深刻理解：“借用面部数据档案Olivetti Face数据库，我们测试了自己的数学模型，并获得了满意的结果。此系统能够正确地识别大部分个体，从不产生假阳性结果，这意味着在某些情况下，它可能无法识别事物，但绝不会混淆一个个体与另一个个体。与类似的方法相比，我们的算法能够有效地剔除异类，要知道这些异类的数据点与其他数据存在较大差异是会损毁分析结果的。”

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

大数据的新算法:简化数据分类

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...