作者 | Gregory Piatetsky
编译 | 木槿、张大笔茹、楚阳
科幻元年2020年马上就要来了。对于技术行业来说,这一年会有哪些值得期待的变化?
KDnuggets采访了14位科技前沿的技术公司创始人,并汇总了他们眼中的2020年:关于人工智能、数据分析、数据科学、机器学习行业中的一些最具创新性的公司的预测。
带有模型的机器学习已经到了一个转折点,各种规模和各个阶段的公司都在努力训练他们的模型。朝着实施其模型培训工作的方向发展。尽管有几种流行的模型训练框架,但领先的技术尚未出现。
就像Apache Spark(专为大规模数据处理而设计的快速通用的计算引擎)被认为是数据转换工作的领导者和Presto(Facebook开发的数据查询引擎)逐渐成为交互式查询的领先技术一样,PyTroch和Tensorflow同样会作为2020年的竞争者来主导机器学习广泛的模型训练领域。2020年可能是我们看到领先者的一年,它打败PyTorch和Tensorflow作为,并将在更广泛的模型培训空间中占据主导地位。
K8s法分析堆栈
尽管容器和K8s在无状态应用程序(例如Web服务器和自包含数据库)上表现出色,但在高级分析和AI方面,我们还没有看到大量的容器使用。
在2020年,我们将看到在Kubernetes(简称K8s,提供了应用部署,规划,更新,维护的一种机制)领域承担AI和分析工作负载将变得更加主流。K8s法分析堆栈将意味着通过将数据从远程数据孤岛移到K8s集群中来解决数据共享和弹性问题,以实现更严格的数据局部性。
AI和分析团队将合并作为一个新数据组织的基础
昨天的Hadoop平台团队是今天的AI和分析团队。随着时间的流逝,出现了许多获取数据见解的方法。人工智能是结构化数据分析的第一步。过去的统计模型已经与计算机科学融合为人工智能和机器学习。
因此数据、分析和AI团队需要合作,从他们共有的数据中获取价值。这将通过构建正确的数据堆栈来完成,在本地或云端或同时部署存储孤岛和计算将成为规范。2020年我们将看到更多组织围绕此数据堆栈建立专门的团队。
2020年将是数据最终实现民主化的一年。在经历了过去几年的酝酿之后,数据分析从数据科学团队转向各行各业并趋于饱和整个业务的全面饱和,这一趋势最终将会陷入僵局。这种自适应的数据项自助服务革命将改变各个行业组织与数据交互的方式,弥合具有业务知识的人与具有数据知识的人之间的鸿沟。
借助易于使用的API和大量数据源的结合,自主助服务分析将应用于成为数字转换最重要的阶段之一,数据集成。典型的数据工作者开始从IT领域转移到业务领域,从而导致大量的工作者执行数据任务。结果将是处理更多的数据,进行更多的分析,最终对业务产生更大、更积极的影响。
NLP的进步使聊天机器人得以广泛采用,并为用户提供在线问答等服务
今年和去年,我们已经看到了NLP(自然语言处理)的一些突破。例如,BERT扩展了NLP模型现在可以实现的功能。我们将在2020年看到越来越多的AI应用程序,如服务聊天机器人、在线问答、情感分析等。
机器学习工具和AIOps在企业中获得了更大的吸引力
在过去的几年中,我们目睹了整个机器学习和AI工具生态系统的成熟。围绕整个技术堆栈的工具,比如数据注释、模型训练、调试、模型服务、部署和生产监控。这些工具明年将会大量增加。
为了帮助管理所有这些工具,更多的公司将在2020年转向AIOps(基于人工智能的智能运维)的实践。大型公司的平台(例如AWS,GCP和Microsoft Azure)已经具有支持AIOps的良好工具,但是许多财富500强公司仍对部署到这些平台所在的云中持谨慎态度。
安全和道德最佳实践推动了更多本地AI部署
随着越来越多的组织针对其AI计划试验更多数据,对AI的安全性和符合道德规范地使用将变得越来越重要。在这个领域中,最主要的担忧是数据泄漏,尤其是个人身份信息(PII),新产品构想和专有信息。这些担忧将导致出现更多用于保护AI创造建的本地解决方案,包括数据注释和实现利用多元化人群的数据保护安全措施的解决方案。
确保安全的数据实践只是越来越符合道德规范的AI使用方法的一部分。这种方法还将包括关心人群的健康,并更仔细地考虑AI应用程序将如何影响使用它们的人,或者说,AI将如何让提升人们的生活质量旨在改善人们生活的方式。
2019年企业领导者认识到仅使用最强大的分析平台来创建报告是不够的。2020年将从人员,流程和技术的角度来实现更深入的成熟度分析。企业将开始发掘创新如何进行数据发现和实现商业智能(BI),并开始使用数据蜘蛛,机器人,人工智能和NLP来查询数据并更快地获得见解。我们即将迎来一场数据革命,它将彻底改变当前的格局,并把推动现代数据工程的发展推向其高潮。
物联网数据的价值的实现-大规模分析物联网数据所产生的决策将带来巨大的商机,有助于降低成本,减少停机时间,并在问题发生之前采取措施预防问题。
容器可观察性-在过去的几年中,许多人深入研究Kubernetes,学习并进行概念验证。到2020年,我们将看到大量此类部署上线,并与企业内部的DevOps(数据化运维)功能紧密结合,需要注意的是容器环境会发出大量指标,许多传统监控产品将因无法满足处理高基数的要求而无法使用。
物联网的增长需要一种创新性的存储解决方案,Gartner预测到2020年将有大约200亿个物联网设备。随着物联网网络的膨胀和技术上的突飞猛进变得越来越先进,管理它们的资源和工具也必须做到这一点。公司将需要采用可扩展的存储解决方案来适应数据的爆炸式增长,这个解决方案的存储容纳、处理数据以及提供洞见的能力都要远超现在的技术。
监视基础结构的复杂性增加-在诸如蓝绿色部署(是一种可以保证系统在不间断提供服务的情况下上线的部署方式)之类的DevOps技术实践的推动下,我们将看指标量将大幅度增加。
当你想利用这些技术并将其与快速CI(Continuous Integration,持续集成)/ CD(Continuous Deployment持续部署)结合使用您采用这些实践并将其与快速CI/CD结合使用时,你会发现已经有好几种组合版本供你挑选了。您会看到一些敏捷组织今天发布了十几种版本。然而,我们仍需要对这些技术工具进行重大改进以适应现代化进程更改以帮助支持这些用例。
在2019年,AutoML受到了越来越多的关注,因为各个机构组织已经意识到自动化机器自动学习(AutoML)尽可能多的数据科学的潜力能力和需求。但是传统的AutoML还受到高度人工化手动和巨大时间消耗的成功设计AutoML所需功能的过程所花费的大量时间的限制和阻碍。
2019年也是AutoML 2.0兴起的一年,也它是AutoML的新起点:体验的新迭代,它使用AI来利用关系数据集中的原始业务数据来自动创建特征并进行测试,评估和评分功能,然后自动和传统的机器学习算法做一比较。然后根据机器学习算法对其进行评估。
随着越来越多的组织机构供应商加入AutoML 2.0培训,我们预计到2020年数据科学全周期自动化的趋势将加速。2020年的另一个大趋势将是ML管道的运营和产品化,在已经进行的早期MLOps试验中,尽可能多地实现自动化变得越来越重要。
使用数据的能力将加速整个经济领域的洗牌,比过去更快地分出胜负
新挑战者的崛起速度将比未来十年更快,而现任领导人的崛起速度也将与之前一样。BCG(波士顿咨询公司,是世界领先的商业战略咨询机构)的研究表明,如今,对于大型公司而言,过去、未来的财务状况和多年的竞争绩效之间的关联现在越来越少。
目前,所有行业的数据科学家都将80%的时间花费在低价值活动上,例如提取数据,增量更新数据,组织和管理数据,优化管道以及将数据交付给应用程序。数据科学家仅将20%的时间用于开发应用程序,以实现业务的进一步增长和增加竞争优势。那些通过新的,自动化的数据操作和方法来使用数据功能的人将会蓬勃发展,因为他们将其数据科学的天才人才应用在创造业务价值上。
数字化转型的影响将在整个经济领域体现:预期的(技术,金融服务,零售/电子零售等)和意想不到的(农业,家居装修,公共部门等)方面。
随着下个十年隐私法的发展,消费者对“个人”数据的更具控制力
GDPR和CCPA(加利福尼亚消费者隐私法案)只是保护消费者和消费者的数据的冰山一角。在接下来的十年中,随着政府和监管机构制定新的隐私法规,消费者对个人数据的控制有望大大提高。
随着时间的流逝,这些监管措施可能会使消费者对个人数据有完全控制权,并为消费者提供直接将其数据货币化或交换商品和服务的机会。
清洁能源运动将在下一个十年创造大量的数据和新的分析方法
现在,美国增长最快的行业是太阳能和风能,未来十年中,这些行业的就业增长预计将是其他行业的两倍。(来源:加州第十七国会区的美国代表Ro Khanna)这些行业的技术进步使成本下降,并引发了清洁能源运动,在过去九年中使全球可再生能源产能翻了两番(来源:环境署)。
这比美国每个发电厂的总和还要多,它将创造大量的数据和新的分析方法,以期在未来十年最大化收益并优化利用这些技术发展。管理和利用这海量的数据将需要用于操作和编排的复杂系统,这些系统将超越过去的人工密集型方法,数据驱动的流程和见解使数据科学家能够专注于最佳和最高水平的智慧的人才使用,推动行业的持续增长。
如果2019年重点在机器,那么2020年将更关注于用户。今年,数据分析中的AI和机器学习产生了比以往更快(更有价值)的结果。下一步是使该过程民主化:降低高技能工人的数据项目负担,赋予非技术用户同样的数据处理分析能力。
未来,无需雇用其他分析师,无需培训查询语言,用户将能够像使用Google一样轻松地浏览数据。
数据科学的民主化
通过文本或语音进行自然语言处理将有助于促进“公民数据科学家”的发展。尽管一些BI工具已经在其平台中添加了NLP功能,但仍有一件事不确定:定价。
2020年,将开始出现人们负担得起的SaaS(Software as a Service,意思为软件即服务),即通过网络提供软件服务BI工具,拥有售价价值数万美元的工具的功能。机器学习和自助服务的完美结合,将为各种规模的企业提供在数据中发现可行计划的能力。
作为以经营文本为中心的AI/ML业务的人,2019年出现了两种趋势:BERT和XLNet等模型逐渐的渗透到该领域,同时,数据科学家的重心从自己动手转向更多地利用AI工具或平台解决问题。以及数据科学家从自己所编写的内容开始的枢纽—使用AI工具和平台解决问题。
这两种趋势两者是相关连的:虽然BERT可以通过改变一小部分训练数据来提供出色的结果,但它却改变了游戏规则,要精通它是很难的技术提升,因此,它成为包含所有内置管道的平台的关键。虽然BERT模型作为游戏规则的改变者可以仅使用小部分训练数据就得到出色的结果,但是,它是如此的复杂以至于技术人员很难掌握,于是,对各种AI工具和平台的熟悉就显得很有先见之明。
2020年,人工智能将巩固其作为下一个十年的决定性技术的地位。玩家将找到到“神奇”的角度,传达正确的信息,即AI可以帮助人类更快,更好地完成工作。此外,NLP也将成为RPA(Robotic Process Automation,机器人流程自动化)的重要组成较大部分,因为供应商在NLP中非常落后。随着企业自动化程度的提高公司自动执行更大的流程,NLP供应商将提供本地+混合云服务来满足用户需求:易于集成的API,可定制性的,快速的ROI。
AI轻松贯穿整个工作场所
随着与AI相关产业行业的进一步发展,AI不仅将会在该技术将超越数据科学领域,而且会在并对医疗设备、汽车设计和工业场所安全等领域方面产生深远影响。
AI将涉足低功耗,低成本嵌入式设备
明年,我们将见证AI涉足在低功耗,低成本设备。人工智能通常使用浮点运算数学来简化模型训练并提高结果的准确性和简化模型训练,因此它和但它不能使用定点数学的低成本,低功耗的定点运算设备不兼容。软件工具的最新进展现在支持具有不同级别的定点数学的AI推理模型。不过,如今的软件已经支持AI模型进行好几种级别上的定点运算了。
强化学习从游戏领域转向现实工业应用领域
2020年,强化学习(RL)将从游戏领域转向支持现实世界的工业应用,尤其是自动驾驶技术,控制设计和机器人技术。可以预见的是,强化学习将会在改善自动驾驶系统领域取得巨大成功。将RL用作改进大型系统的组件时,例如在自动驾驶系统中提高驾驶员性能将会成功。
仿真数据提升降低成功采用AI的难度-数据质量
根据分析师的调查,数据质量差是成功使用AI的最大障碍。正常的日常系统的一般运行操作会生成大量可用数据。但是,从异常值或关键或故障临界值条件中查找数据往往更有价值。训练准确的AI模型需要大量此类数据,而仿真数据降低成功采用AI的难度此时,仿真模型生成的数据不仅降低了数据收集的成本还在很大程度上提高了数据质量。
在数据库领域,尤其是在云领域存在技能短缺问题。越来越多的公司希望利用他们的数据,但发现很难以他们想要的速度成功地运营。选择数据库与应用程序一起运行的开发人员只希望它们能够工作而无需承担管理职责。因此,必须成为DBA才能实现这一目标。
在管理和维护数据库系统尤其是云端数据库系统的过程中存在技术短板。更多的企业想从数据中发掘有用信息,然而往往并不如愿。这些企业把数据迫切地收集来想要得以致用而缺少专业的数据库管理员来合理地管理这些数据。
过去,数据库供应商已通过启动更多托管服务来解决问题,但是,这会将问题转移到其他地方。尽管企业已经通过委托一些管理机构来解决此问题,但是,这本身也会产生一些问题。
今年,公司开始讨论如何自动化数据库管理并使其具有自主性和自我修复能力。这是今年甲骨文大会Oracle客户会议上的一个重要议主题,而我们已经在Percona数据库上做了一些尝试已经启动了自己的计划,以使云中的数据库更加“自治”。企图使云端数据库的管理更加自动化。
明年,更加智能的数据库管理服务将变得可行并更上发展速度。然而,我们更应该关注这种自动化服务程序的设计和普适性能,因为即使再优秀的程序也无法面面俱到。
眼下是数据科学的黄金时代,通过与客户的交流,我们预见了2020年的四大转变趋势:新的数据堆栈分析将崛起、对数据的深入诊断将代替浅显的数据挖掘、会出现更实用层面的数据需求以及新的岗位角色——运营分析师。
更新更灵活的分析堆栈的兴起
从对Redshift,Snowflake和BigQuery之类的云数据仓库进行投资开始,公司还将采用现代化的数据管道和ETL工具(如Fivetran和Stitch)将更多数据集中到这些结构化存储解决方案中。下一步呢?重建其诊断工具,以应对大量数据的涌入。Redshift, Snowflake, and BigQuery等平台的出现表明企业已经开始向云数据库投资了,接下来企业将接纳更多的现代化数据管道以及类似于Fivetran和Stitch的ETL(Extract-Transform-Load,即将数据从来源端经过抽取、转换、加载至目的端的过程)工具将更多的数据汇集到这些结构化的存储方案中。因此,下一步,企业将要重建诊断软件来处理大量涌入的数据。
企业一般需要实时的处理同时来自数个数据源的数据,数量之大可想而知,IT和数据团队可以从以下几个层面来优化分析构架:
2020年以后,数据治理将重归前沿回到最前沿。随着分析和诊断平台的扩展,从数据中获取的信息将在企业中更广泛无缝地共享,数据管治理工具会将有助于确保数据的机密性,使用合理性正确使用和完整性。2020年,公司使用和感知分析方式将会转变。
诊断工具
随着结合这种基础结构的变化,董事会会开始关注指标为何更改以及这些更改对于日常业务运营意味着什么。有效使用数据来构建(和交叉)壁垒将是成功的公司的竞争性资产。在有效利用数据方面,企业之间已形成竞争局面,数据已经成为企业的竞争性资产而非被动资产。
运营分析师的崛起
数据分析的未来是运营分析师的崛起。数据不再只属于数据科学家。企业员工开始像数据分析师一样工作,针对特定业务的新技术能和工具即将出现。分析趋势,变化并使用数据做出有影响力的决策将成为对新的员工要求和期望,而不再局限于业务分析师或市场营销分析团队。
随着企业2020年以后开始大规模扩张以及野心的增长,DataOps将被视为克服与分析现代数据变化的速度,分散性和趋势轨迹的有力工具。在Gartner上,“DataOps”的搜索量在2019年翻了三倍。此外,已经可以通过StreamSets(强大的数据清洗平台),我们发现了有大量用户已经接受了DataOps。
一些企业公司正在通过DataOps进入这一领域,还有一部分企业他们通过收购小规模公司来,建立以数据管理为核心的业务。许多DataOps职位开始出现,人们在实践中加深了对“DataOps”这个专业术语的理解,并使之成为了数据驱动组织的代名词。所有这些依靠对“DataOps”的新理解和对术语的认识,以此来成为数据驱动型企业。
2020年,越来越多的可以解决公司核心业务问题并从数据中发现价值的技术将会应运而生,且无需对Apache Spark做技术深入了解。企业将无需具备专业技能便能利用Apache Spark之类的工具。这将使其实现对数据的连续读取和监测,并分析每个商业决定和应用对业务带来的影响。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16