更多的数据胜过更好的算法_数据分析师

时下大数据的关注是越来越高，关于大数据的讨论也是火热异常。而作为玩转大数据的巨头之一Google对数据的重视更是非同一般，这次Google给我们带来的是“更多是数据意味着更好的语音识别”。其产品研发总监Peter Norvig更认为：更多的数据胜过更好的算法!

　　Google发布的新研究论文详述了语音识别程序幕后的数据科学，包含了语音搜索和向YouTube视频中添加文字说明和标签。虽然其中的算法多数人都无法掌握，但是思想却是完全可以理解的。论文的出发点在于人们对大数据热衷的原因及为工作选择合适数据集的重要性。

　　Google自始至终都认为数据是越多越好，用产品研发总监Peter Norvig的话就是：更多的数据胜过更好的算法。尽管Norvig的评价中还有一些对算法的吹毛求疵，但是显然更多的人接受了这篇论文并在大数据领域引起了热烈的讨论。模型用来学习的数据越多，模型就会变的越精确 —— 即使开始时不是最尖端的。

　　言归正传，下面我们来看一下更多的数据在语音识别系统的改善中所起到的作用。研究人员发现数据集和大型语言模型(维基百科对Google 研发中涉及到的n-gram模型的解释)可以降低在收到第一个单词时推测下一个单词时的错误率。比如Google高级研究员在10月31日关于这项研究的博客中给出的例子：一个好的模型在前两个单词是“New York”时推测下一个词时会更多的选择“pizza”而不是“granola”。在做语音搜索时，他的团队发现：模型的大小每增加两个数量级就可以减少10%的关系词错误率。

　　这里的关键在于什么类型的数据集对你的模型有益，不管它们是什么。对于搜索的测试，Google使用google.com匿名查询的随机样本中抽取没有出现拼写校正的230个单词。因为人们讲话和写作不同于普通的打字搜索，所以YouTube模型的数据都是来自新闻报道的录音和大型网站上的抓取。他们写道：“单纯的就语言建模而言，各种各样的话题和口语风格让大型网站抓取成为语言模型建立的很好选择。”

　　虽然这个研究并不一定具有突破性，但是却道出了大数据和数据科学为什么会在今天引起这么多的注意。随着消费者需求更智能的应用程序和更无缝的用户体验，每一块数据的选择及每一块数据对应分析方案无疑都是重中之重!

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇随机森林 vs XGBoost vs 决策树：算法选择中的

下一篇图论在大数据分析中的作用！

更多的数据胜过更好的算法_数据分析师

更多的数据胜过更好的算法_数据分析师

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...