用人工智能读懂大数据_数据分析师考试
关于大数据,现在有两个概念,一个是数据大,另一个就是容量大。“大”确实是一个问题,随之而来的大数据处理问题也是一个老问题。之所以说这是个老问题就在于,之前在气象数据的处理里,有各种不同的图象、文本,动态情况带来的变化也很多,导致我们也遇到很大的数据量。因此数据大并不是网络时代才有的问题,只是现在更加严重。
网络数据跟以往数据的不同在于网络时代的数据虽然量很多,但是有用的不到30%、40%,好用的更不多,只有7%,经过“清洗”的不到1%。这和我们以往的数据大不一样,气象数据尽管有噪声问题,但是从来没有数据虚假、无用、造谣的,但是在网络里就不一样了。
此外,网络数据跟用户和社会关联,也就是说这种数据是在社会间产生,在人与人之间不断传播,因此它所造成的影响和效果是跟以往的数据不一样的。
以往,我们比较多的是从形式、规模这些维度来考虑大数据,在形式上它很复杂,规模上它数量很大,但网络数据还将涉及更多我们之前没有涉及的维度,如语义的维度、内容的维度。
首先是人机交互的变化。通常我们在用计算机的时候只是把程序输入进去,计算机根据程序来完成计算,然后把结果输出给用户,这中间计算机不需要了解用户的意图或数据的来源。因为所有的数据有在计算机存在的语音和语义,但计算机并没有理解这些内容。到了网络时代,人机界面起到非常大的变化。也就是说人们把自己的需求用文本、图象、语音输入到计算机里,计算机必须得通过这些了解用户意图,然后根据用户意图输出用户需要的信息,在此信息的内容已经需要计算机考虑了。
在网络时代计算机必须要涉及到信息的内容,这意味着计算机不仅需要了解用户意图,同时要了解用户的兴趣等,这是语义的维度。
如果要了解网络计算机新的需求以及了解用户意图、兴趣和体验等,我们要做到两点。首先就是把没用上的或者“不好”的数据转变成知识,或者我们通过理解这些数据的内容、信息的内容,把它们变成网络时代信息处理的新需求。其次,如果计算机要从文本、图象、语音去理解用户的意图,那这个理解必须涉及三个层面的问题。第一个方面,计算机得了解某句话的字面意思,即自然语义;第二个方面,用户输入这句话的用意何在,潜意识里想要做什么;第三个方面,这句话的真实含义是什么,判断用户是否赞同此说法等。因此我们提供一条网络信息,计算机至少需要了解这三层意思。但过去计算机信息处理里没有此要求,这就是我们现在传统信息面临的最根本的挑战。
传统的信息处理方法显然是能不能解决上述问题的,原因在于我们所有的信息处理方法是建立在与语义无关的假设上,不管是通信理论、控制理论或者信息处理理论都是跟语义无关的,也就是说在传统理论里必须把信息内容抽掉,这就是所有信息理论建立的依据,因为不采取这样的方法就不能建立一般的内容。
到了网络时代传统的方法遇到困难了,当我们输入信息X送到机器上,阅读者或者接收者者接受信息X,中间都没有误差,但我们接下来从机器那里我们能不能了解到X背后的含义呢?显然传统的剥离信息内容的处理方法解决不了这个问题。
但我们现在还是在采用传统方法进行网络上的信息处理。具体是把X映射到词空间,或者图象的特征里,然后试图找到这个特征到语义的映射。那么特征空间到语义空间是否存在一对一的映射?如果存在,如何去找?我们现在把图象、文本、语音统称为数据,到计算机里它们都表现为0和1、1和0,我们要从这些0和1、1和0里找出来具体的0和1是哪个概念,它背后是什么,并要找到这个映射。现实中,我们不能准确把0和1、1和0进行准确的归类,这个一般情况映射是不存在的。也就是说从底层的数据时代词的组合,从颜色、纹理、视频等,我们没法找到其文本的含义,去识别这个图象代表什么,或者识别语音,因为距离太远。
但是有幸的是这种映射在特定数据处理之下,通过使用合理的方法这个映射是存在的,也就是说它只在特定的条件下用特定的方法才存在。我们现在在做的文本机器翻译、图象识别、语音识别都是在这个前提下实现的。所以我们每当看到人家输出各种结果时,首先想到的是在什么样的数据库下做出来的。我们现在常听到的机器学习、深度学习就是用这个方法进行训练,再独立开,进而对没有见过的数据进行分类。
现在很多图象识别做得比较好,原因在于其图象库的图片以及所给的图片是规格化的、对齐的,而且是正面人脸,保证了其相对高的识别率,这也是在特定条件下可以做得非常好的效果。而如果我们图象没有规格化,大小不一,不仅有正面图象还有侧面图象,或者有一定角度的图象,这样识别率就会变低。
目前计算机做的人脸识别都是上面提到的必须在一定的图片下面进行比较,方法无论好坏,大家都必须在同样的数据库下做实验。这也是我们传统的信息处理方法。
人工智能试图直接去处理语义,这也是人工智能的一个重大试探。这个试探的结果是基于语义观察学这一假设。而人工智能认为人脑和计算机都是物理符号系统,我们就有可能用计算机来模拟人脑功能。这一假说是人工智能领域几个创始人提出来的主张,早期的人工智能也是在这个主张下开展的。
虽然这个主张也有人提出了反对意见(不能把人脑的所有的过程都看成是符号处理),但我们确实在实践上取得了很多进展。这就是在计算机应用的所谓符号模型,但是这个模型有它的局限性。
这个模型可以模拟深思熟虑的行为,还可以用来做问题的处理、诊断和决策。
当我们把决策和诊断过程用符号系统处理,会有成功也有不成功的,最主要的成功就是用这套方法来做模式识别,但是在感知和语音识别方面行不通。后来便提出了多层神经网络,现在多层神经网络多指深度学习。也就是说我们固然可以用知识推动的方法来解决人类深思熟虑的行为,像推理、诊断、规划等,但是这类方法很难用到感知处理上,而感知处理用多层神经网络来做,语音、图象的识别率比传统的方法提高了两位数的百分点,这是非常了不起的。
但是这个方法也不是完美的,并不能完全解决问题。概率统计方法存在局限性,多层神经网络也不是完美的,不能简单地以为深度学习已经完全可以超过人类的水平,这只是在一定的条件和环境下。
未来的大方向是把传统信息处理和人工智能结合起来,传统信息处理是概率统计的方法,是数据驱动的方法,要解决大数据处理的问题以及语义问题,就要做到“数据驱动+知识驱动”。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16