出品 | CDA数据分析研究院,转载需授权
在百度中输入“什么是机器学习?”并进行搜索后,就仿佛打开了一个潘多拉的魔盒,里面有各种网站,论坛,百度知道,视频,学术性研究等,当然还会这篇文章要讲的,那就是什么是机器学习等一系列相关的认知文章,和相关视频的推荐。而这篇文章的目的也就是为了简化机器学习的定义和方便人们理解什么是机器学习。
除了了解什么是机器学习(ML),机器学习的定义之外,我们还旨在简要概述机器学习的基本原理,让机器“思考”的挑战和局限性,以及今天深入了解的一些问题学习(机器学习的“前沿”),以及开发机器学习应用程序的关键要点。
本文将分为以下几个部分:
无论你对机器学习是否有兴趣,我们都将把这些资源整合在一起,以帮助你解决有关机器学习的问题 - 所以你可以查看任何你感兴趣的话题,或者按照顺序阅读这篇文章都可以,那么我们就从下面的机器学习定义开始:
什么是机器学习?
“机器学习是让计算机像人类一样学习和行动的科学,通过以观察和与现实世界进行互动的形式向他们提供数据和信息,随着时间的推移,以自主的方式提高计算机的学习能力。”
上述定义包含了机器学习的理想目标或最终目标,正如该领域的许多研究人员所表达的那样。本文的目的是为具有商业头脑的读者提供有关机器学习的定义及其工作原理的专家观点。 机器学习和人工智能在许多人的脑海中具有相同的定义,但读者也应该认识到他们其中的一些明显的差异。
我们是如何得出我们的定义的:
与任何概念一样,机器学习的定义可能略有不同,具体取决于你向谁问机器学习的概念。我们梳理了在互联网中对机器学习的定义,从一些著名的来源中找到五个实用的定义:
我们将这些定义发送给我们采访过和/或包含在我们之前的研究共识中的专家,并要求他们回答他们最喜欢的定义或提供他们自己的定义。我们的介绍性定义旨在反映不同的反应。以下是他们的一些回复:
蒙特利尔大学Yoshua Bengio博士:
ML不应由否定来定义(因此判定2和3)。而我的定义如下:
机器学习研究是人工智能研究的一部分,旨在通过数据,观察和与世界的互动为计算机提供知识。获得的知识允许计算机能够正确地推广到新设置。
Danko Nikolic博士,CSC和Max-Planck研究所:
(选择上面的数字2):“机器学习是让计算机在没有明确编程的情况下采取行动的科学,而是让他们自己学习一些技巧。”
路易斯维尔大学Roman Yampolskiy博士:
机器学习是一门让计算机学习和人类做得更好或更好的科学。
华盛顿大学Emily Fox博士:
我最喜欢的定义是第五个。
机器学的习基本概念
有许多不同类型的机器学习算法,每天都会有新发布数百种的算法,并且它们通常按学习风格(即监督学习,无监督学习,半监督学习)或通过形式或功能的相似性(即分类,回归,决策树,聚类,深度学习等)。无论学习风格或功能如何,机器学习算法的所有组合都包含以下内容:
模型的可视化表示
到目前为止,概念和要点只能走这么远。当人们问“什么是机器学习?”时,他们经常想看看它是什么以及它做了什么。以下是机器学习模型的一些可视化表示。
我们如何让机器去学习
有许多不同的方法让机器学习,从使用基本决策树到聚类再到人工神经网络层(后者已经让位于深度学习),这取决于你要完成的任务和类型以及你可用的数据量。这种动力在各种应用中发挥作用,如医疗诊断或自动驾驶汽车。
虽然重点通常放在选择最佳学习算法上,但研究人员发现,一些最有趣的问题没有可用的机器学习算法的执行标准。大多数情况下,这是训练数据的问题,但这也发生在使用机器学习在新领域上。
在处理实际应用程序时所做的研究通常会推动该领域的进展,原因有两个:1.发现现有方法的界限和局限性的趋势2.研究人员和开发人员与领域专家合作,利用时间和专业知识来提高系统性能。
有时这也是由“意外”发生的。我们可能会考虑模型集合或许多学习算法的组合来提高准确性,但有一个例子。2009年Netflix Price的团队发现,当他们将学习者与其他团队的学习者结合起来时,他们取得了最好的成绩,从而改进了推荐算法。
在商业和其他领域的应用方面,一个重要的观点(基于对该领域专家的访谈和对话)是,机器学习不仅仅是一个经常被误解的概念,甚至与自动化有关,这是一个经常被误解的概念。如果你这样想,你一定会错过机器学习可以提供的宝贵见解和由此产生的机会(重新思考整个商业模式,就像制造业和农业等所做的那样)。
学习的机器对人类很有用,因为它们具有所有的处理能力,能够更快地突出显示或找到人类可能错过的大数据(或其他)中的模式,否则人类就会错过这些模式。机器学习是一种工具,可用于增强人类解决问题的能力,并从广泛的问题中做出明智的推断,从帮助诊断疾病到提出全球气候变化的解决方案。
挑战与局限
“机器学习无法从无到有......它的作用是从更少的东西中获得更多。” - 华盛顿大学Pedro Domingo博士
机器学习中两个最大的,历史性的和持续的问题都涉及过度拟合(其中模型表现出对训练数据的偏见,并且不会推广到新数据,和/或变化,即在训练新数据时学习随机事物)和维度(具有更多特征的算法在更高/更多维度上工作,使得理解数据更加困难)。在某些情况下,访问足够大的数据集也是主要问题。
机器学习初学者中最常见的错误之一是成功地测试训练数据并产生成功的假象; Domingo(和其他人)强调在测试模型时保持一些数据集独立的重要性,并且仅使用该保留的数据来测试所选模型,然后对整个数据集进行学习。
当一个学习算法(即学习者)不起作用时,通常更快的成功之路是为机器提供更多的数据,其可用性现已成为近期机器学习和深度学习算法进步的主要驱动因素。 然而,这可能导致可扩展性问题,在可扩展性中,我们有更多的数据,但是否有时间了解数据仍然是一个问题。
就目的而言,机器学习本身并不是目的或解决方案。此外,尝试将其用作一揽子解决方案即“BLANK”并不是一项有用的做法; 相反,带着一个问题或目标来到谈判桌上往往最好由一个更具体的问题来驱动 - “BLANK”。度学习与神经网络的现代发展
深度学习涉及机器算法的研究和设计,用于在多个抽象级别(安排计算机系统的方式)学习数据的良好表示。最近通过DeepMind,Facebook和其他机构进行深度学习进行了宣传,突显了它作为机器学习的“下一个前沿”。
机器学习国际会议(ICML)被广泛认为是世界上最重要的会议之一。该会议在今年6月在纽约市举行,汇集了来自世界各地的研究人员齐聚一堂,他们致力于解决当前深度学习中的挑战:
深度学习系统在过去十年中在诸如对象检测和识别,文本到语音,信息检索等领域取得了巨大的进步。研究现在专注于开发数据高效的机器学习,也就是在个性化医疗、机器人强化学习、情绪分析等前沿领域,开发更搞笑的深度学习系统,在更短的时间和更少的数据下,以同样的性能进行跟高效的学习。
应用机器学习的关键
下面是一系列应用机器学习的最佳实践和概念,我们已经从我们对播客系列的采访以及本文末尾引用的选择来源进行了整理。我们希望这些原则中的一些将阐明如何使用ML,以及如何避免公司和研究人员在启动ML相关项目时可能容易受到的一些常见陷阱。
数据分析咨询请扫描二维码
在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16在现代企业中,数据分析师扮演着至关重要的角色。他们不仅负责处理和分析大量的数据,还需要将这些分析结果转化为切实可行的商业 ...
2024-12-16在当今的大数据时代,数据分析已经成为推动企业战略的重要组成部分。无论是金融、医疗、零售,还是制造业,各个行业对数据分析的 ...
2024-12-16在当今这个以数据为驱动力的时代,数据分析领域正在迅速扩展与发展。随着大数据、人工智能和机器学习技术的不断进步,数据分析已 ...
2024-12-16在信息爆炸和数据驱动的时代,数据分析专业是否值得一选成为许多人思考的议题。无论是刚刚迈入大学校门的新生,还是考虑职业转型 ...
2024-12-16适合数据分析专业学生的实习岗位有很多,以下是一些推荐: 阿里巴巴数据分析岗位实习:适合经济、统计学、数学及计算机专业的 ...
2024-12-16在数据科学领域,探索实习机会是一个理想的学习和成长方式。实习不仅可以提供宝贵的实践经验,还能帮助学生发展关键的数据分析技 ...
2024-12-16在当今信息驱动的时代,数据分析不仅成为了企业决策的重要一环,还催生了各种职业机会。从技术到业务,数据分析专业的就业岗位种 ...
2024-12-16在现代企业中,数据分析师被誉为“数据探险家”,他们通过揭示隐藏在数据背后的故事,帮助公司优化业务策略和做出明智的决策。然 ...
2024-12-16