作者尤金·颜,亚马逊应用科学家
“与其手动检查我们的数据,为什么不试试领英的做法呢?它帮助他们实现了95%的准确率和80%的召回率。“
然后我的队友分享了如何使用k-最近邻来识别不一致的标签(在职位名称中)。然后,LinkedIn在一致的标签上训练支持向量机(SVM);然后用支持向量机对不一致的标签进行更新。这帮助他们在职称分类器上达到95%的精确度。
这个建议在我们的讨论中是最有用的。对它的跟踪导致我们的产品分类器的最终准确率达到95%。我问她,她是如何贡献出这种批判性的见解的。“哦,我只是偶尔看看报纸。”她回答。具体来说,她每周都会读1-2篇论文,通常是围绕团队正在研究的主题。
通过阅读论文,我们能够了解其他人(例如LinkedIn)发现哪些有用(或者不有用)。然后我们可以适应他们的方法,而不必重新发明火箭。这有助于我们以更少的时间和精力交付工作解决方案。
如果说我比别人看得更远,那是因为我站在巨人的肩膀上。
-艾萨克·牛顿
阅读论文还拓宽了我们的视野。尽管我们可能在数据科学的狭隘领域工作,但切向研究的发展往往是有帮助的。例如,Word嵌入和graphshave的思想在推荐系统中很有用。同样,来自计算机视觉的思想--如迁移学习和数据增强--对自然语言处理(NLP)有帮助。
阅读论文还使我们了解最新情况。在过去的十年里,自然语言处理领域取得了长足的进步。尽管如此,通过阅读最关键的10篇左右的论文,我们可以很快跟上速度。通过了解最新情况,我们在工作中变得更有效,从而需要更少的时间和精力。然后我们有更多的时间阅读和学习,导致一个良性循环。
如果我们开始养成这个习惯,我们可以阅读任何我们感兴趣的东西--大多数论文都会有一些东西教我们。阅读我们感兴趣的话题也会更容易养成习惯。
我们也可以根据实用性来选择论文。例如,我们可能需要快速理解一个项目的域。在开始一个项目之前,我几乎总是留出时间进行文献综述。花几天时间研究论文可以节省几周甚至几个月的死胡同和不必要的重新发明轮子。
建议也是确定要阅读的有用论文的方便方法。一个黑客是在社交媒体上关注我们崇拜的人,或者订阅精心策划的时事通讯--我发现这些来源的信息噪声比很高。
我读什么报纸?出于实用性,我读的多是与工作有关的论文。这使我能够立即应用我所读到的知识,从而加强我的学习。在工作之外,我对序列感兴趣,并倾向于阅读强化学习。我特别喜欢分享什么有效什么无效的论文,比如通过消融研究。这包括关于Word2VEC、BERT和T5的论文。
在谷歌搜索“如何阅读论文”会返回无数有用的结果。但如果你觉得它势不可挡,这里有几个我发现很有帮助的:
我的方法类似于三遍法。在下面的例子中,我将分享我是如何阅读几篇recsys的论文来了解新颖性、多样性和偶然性的度量标准的。等等。
在第一遍中,我扫描摘要以了解论文是否有我需要的内容,如果有,我浏览标题以确定问题陈述、方法和结果。在这个例子中,我专门寻找如何计算各种度量的公式。我给我的单子上的所有文件一个第一关(并拒绝开始第二关,直到我完成了单子)。在本例中,大约一半的论文进行了第二次传递。
在第二遍中,我再次阅读每一篇论文,并突出显示相关章节。这有助于我在以后参考论文时迅速发现重要的部分。然后,我为每篇论文做笔记。在本例中,注释主要围绕度量(即,方法、公式)。如果是一个应用程序的文献综述(例如,recsys、产品分类、欺诈检测),说明将侧重于方法、系统设计和结果。
对于大多数论文来说,第二次通过就足够了。我已经捕获了关键信息,如果需要,可以在未来参考它。尽管如此,如果我读论文作为文献综述的一部分,或者如果我想巩固我的知识,我有时会做第三步。
阅读只为心灵提供知识材料;是思考使我们读到的东西成为我们的。
-约翰·洛克
在第三关中,我将论文中常见的概念综合成自己的注释。各种论文都有自己的方法来衡量新颖性、多样性、偶然性等,我把它们合并成一个音符,并比较它们的利弊。在这样做的时候,我经常发现笔记和知识中的空白,不得不重温原始论文。
最后,如果我认为它对其他人有用,我会写出我所学到的并在网上发布。相对于从头开始,有我的笔记作为参考让写作容易得多。这导致了诸如:
在深入你的下一个项目之前,花一两天时间浏览几篇相关的论文。我相信从中长期来看,这将为您节省时间和精力。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29持证人简介 郭畅,CDA数据分析师二级持证人,安徽大学毕业,目前就职于徽商银行总行大数据部,两年工作经验,主要参与两项跨部 ...
2025-01-282025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07