Top10 机器学习开源项目发布，历时一个月评出（附 GitHub 地址） -CDA数据分析师官网

Top10 机器学习开源项目发布，历时一个月评出（附 GitHub 地址）

2018-02-23

Top10 机器学习开源项目发布，历时一个月评出（附 GitHub 地址）

从将近 250 个机器学习开源项目中，综合各种条件进行打分排序，最终 Mybridge 团队评选出十大最新、最棒的机器学习开源项目。

这份 Top10 名单中包括对象检测、换脸、预测等等最热的 AI 明星、话题性研究和代码。它们在 GitHub 上的平均标星数量是 2500 多颗。希望这 10 大开源项目，对你有所帮助。

Rank 10

作者：Posenhuang 等（微软研究院）
GitHub：https://github.com/posenhuang/NPMT
★ Star：68

NPMT ，基于短语的神经机器翻译，这是一项来自微软研究院团队的研究。这个机器翻译领域的新突破，没有使用任何注意力机制。

这个方法通过 Sleep - WAke 网络（ SWAN ）明确地建模输出序列中的短语结构。SWAN 是一种基于分割的序列模型方法。

NPMT 的源代码基于 Torch 中的 fairseq 工具箱建立。fairseq 是 Facebook AI 研究院开源的序列到序列工具箱，这个方法使用卷积神经网络来做语言翻译，比循环神经网络提速 9 倍。

Rank 9

Deep-neuroevolution
作者：Uber AI 实验室
GitHub：https://github.com/uber-common/deep-neuroevolution
★ Star：392

这是共享出行巨头 Uber 开源的算法，他们此前集中发布了 5 篇论文，支持一种正在兴起的认识：通过用进化算法来优化神经网络的神经进化（ neuroevolution ）也是为强化学习（ RL ）训练深度神经网络的一种有效方法。

而这次 GitHub 中公布的代码，包括以下算法的分布式实现：

1、Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning

论文地址：https://arxiv.org/abs/1712.06567

2、Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents

论文地址：https://arxiv.org/abs/1712.06560

这些代码基于 OpenAI 此前公布的源代码和论文。

Rank 8

Simple
作者：chrisstroemel
GitHub：https://github.com/chrisstroemel/Simple
★ Star：235

Simple 是贝叶斯优化的更具可扩展性的替代方法。像贝叶斯优化一样，它的样本效率很高，能用尽可能少的样本收敛到全局最优。

对于典型的优化工作负载，贝叶斯优化消耗的 CPU 时间以分钟计，而 Simple 使用的 CPU 时间以毫秒计。如下图所示：

Rank 7

作者：Henry Mao 等（加州大学圣迭戈分校）
GitHub：https://github.com/calclavia/DeepJ
★ Star：313

DeepJ 是一种端到端生成模型，能够以特定的混合风格来实时创作钢琴曲。这个算法能够生成可以调整参数的音乐，这种可调整的属性，能为艺术家、电影制作人、作曲家等带来实际的帮助。

使用这套代码需要 Python 3.5 。

访问下面的 Demo 地址，可玩、可感受，亦可当背景音听。

Demo 地址：https://deepj.ai/

Rank 6

作者：Charles Beattie 等（DeepMind）
GitHub：https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/psychlab
★ Star：4774

Psychlab ，DeepMind 为 AI 开设的心理学实验室。

其实就是个第一人称视角 3D 游戏世界，这个心理学实验室当然也是个模拟环境，研究对象是其中的深度强化学习智能体（ Agents ）。Psychlab 能够实现传统实验室中的经典心理学实验，让这些本来用来研究人类心理的实验，也可以用在 AI 智能体上。

Rank 5

作者：DeepMind
GitHub：https://github.com/deepmind/dm_control
★ Star：882

火遍全球的 AlphaGo 让我们知道了强化学习打游戏究竟有多厉害，这么强大的算法什么时候才能打破次元壁，走进现实、控制物理世界中的物体呢？

DeepMind 已经开始往这方面努力。他们此前发布的控制套件“ DeepMind Control Suite ”，就为设计和比较用来控制物理世界的强化学习算法开了个头。

Control Suite 设计了一组有着标准化结构、可解释奖励的连续控制任务，还为强化学习 Agent 提供一组性能测试指标。

Control Suite 中的任务可以分为 14 个领域，也就是 14 类物理模型，上排从左到右分别是：

体操机器人 Acrobot ，（两节钟摆）、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人，下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的 Reacher 、游泳机器人、步行者。

Rank 4

作者：Marco Ribeiro 等（华盛顿大学）
GitHub：https://github.com/marcotcr/lime
★ Star：3148

在这次的 Top10 项目中，这个算是“老资格”了。主要基于 KDD2016 上发表的论文：《“为什么我应该相信你？”解释任何分类器的预测》。

这个研究提出了局部可理解的与模型无关的解释技术（ Local Interpretable Model-Agnostic Explanations: LIME ），一种用于解释任何机器学习分类器的预测的技术，并在多种与信任相关的任务中评估了它的可用性。

下面这段视频，是一个更直观的解释。

Rank 3

Gradient-checkpointing
作者：OpenAI
GitHub：https://github.com/openai/gradient-checkpointing
★ Star：1107

GPU 内存太小可能是神经网络训练过程中最大的拦路虎。

不怕，用这个 OpenAI 推出的 gradient-checkpointing 工具程序包，对于前馈模型来说，仅仅需要增加 20% 的计算时间，就能让 GPU 处理十倍大的模型。

这个工具包的开发者是 OpenAI 的研究科学家 Tim Salimans 和前 Google Brain 工程师的数据科学家 Yaroslav Bulatov 。

这个工具包使用了“用亚线性的存储成本训练神经网络”的技术，为简单的前馈网络提供了等价的内存存储，同时能为一般的神经网络节省内存，比如多层架构。

Rank 2

作者：Hidde Jansen
GitHub：https://github.com/deepfakes/faceswap
★ Star：3629

最近 Deepfakes 在 AI 、AV 两届掀起轩然大波。简单的说，就是 AI 可以帮你给 AV 小片换脸，替换成任何你想看的明星。

而 FaceSwap 是一个基于 deepfakes 的非官方开源项目。

Rank 1

作者：Facebook AI 研究院
GitHub：https://github.com/facebookresearch/Detectron
★ Star：11248

这个应该是当之无愧的第一吧。

Detectron 是 Facebook 的物体检测平台，今年初宣布开源，它基于 Caffe2 ，用 Python 写成，这次开放的代码中就包含了 Mask R-CNN 的实现。

除此之外，Detectron 还包含了 ICCV 2017 最佳学生论文 RetinaNet ，Ross Girshick（ RBG ）此前的研究 Faster R-CNN 和 RPN 、Fast R-CNN 、以及 R-FCN 的实现。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

神经网络机器学习 Caffe

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇【资源】年后第一波数据分析必备神器安利

下一篇关于Python中浮点数精度处理的技巧总结

Top10 机器学习开源项目发布，历时一个月评出（附 GitHub 地址）

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...

【面试】秋招年薪50万，央企数据分析岗成功上岸！ ...

【干货】大厂数据分析师面试，最常犯的2个技术错误 ...