谷歌教你学 AI-第三讲简单易懂的估算器-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读谷歌教你学 AI-第三讲简单易懂的估算器

谷歌教你学 AI-第三讲简单易懂的估算器

2018-01-03

谷歌教你学 AI-第三讲简单易懂的估算器

Google Cloud发布了名为"AI Adventures"的系列视频，用简单易懂的语言让初学者了解机器学习的方方面面。

观看更多国外公开课，点击"阅读原文"

前两期我们分别讲到了机器学习的概念和具体步骤，今天让我们来看到第三讲，使用TensorFlow Estimator进行机器学习。

CDA字幕组目前在对该系列视频进行汉化，之后将继续连载，欢迎关注和支持~

主讲人还是来自Google Cloud的开发人员，华裔小哥Yufeng Guo。让我们在学习AI知识的同时来提高英语吧。

附有中文字幕的视频如下：

AI Adventures--第三讲简单易懂的估算器

针对不方便打开视频的小伙伴，CDA字幕组也贴心的整理了文字版本，如下：

机器学习棒极了，除了它迫使你用到高数的时候。进行机器学习的工具得到了极大地发展，训练模型也从未如此简单。

我们将利用对数据集的理解，而不是对纯粹数学知识的理解，以此编程得出模型，最终得出相应见解。在本期视频，我们将用少部分代码训练一个简单的分类器。

TensorFlow Estimator

为了训练分类器，我们将使用TensorFlow。谷歌的开源机器学习库。 TensorFlow有很庞大的API，但是我们要关注的是当中的高级API，称为Estimator(估算器)。

Estimator为我们把训练循环打包起来，这样我们可以通过配置来训练模型，而不是手工进行编程。从而去除了许多样板文件，让我们在更高的层面上思考抽象问题。意味着我们能够参与到机器学习有意思的部分，而不用为各个细节而烦恼。

由于目前为止我们只涉及到线性模型，因此将主要围绕该部分。之后会再看到这个例子，用来拓展其能力。

鸢尾花分类

这次我们将构建一个模型，用来区分三种类似的花。我感觉这可能没有上一期区分葡萄酒和啤酒那么有意思，但是这些花朵更难区分，从而构成一项有趣的挑战。

我们将对不同种类的鸢尾花进行区分。我不确定我能区分鸢尾花和玫瑰，但是我们模型的目的是区分出山鸢尾(Iris Setosa)、杂色鸢尾(Iris Versicolour)和维吉尼亚鸢尾(Iris Virginica)。

山鸢尾(Iris Setosa)、杂色鸢尾(Iris Versicolour)和维吉尼亚鸢尾(Iris Virginica)

我们有鸢尾花卉数据集，包括花瓣和花萼长宽度数据。这四列将作为我们的“特征”。

加载数据

在引入TensorFlow和NumPy后，我们将加载数据集，使用TensorFlow的函数load_csv_with_header 。数据或者特征呈现为浮点数。同时每行数据或对象的标签记录为整型数(integer)：0、1、2，对应三种花。

我输出了加载的结果，现在我们可以用命名的属性访问训练数据和相关标签或对象。

建立模型

下面我们开始建模。首先我们需要设定特征列。特征列决定了进入模型的数据类型。我们将用到四维特征列表示特征，称为“flower_features”。

使用估算器(estimator)建模超级简单。使用`tf.estimator.LinearClassifier`，我们可以通过传递之前创建的特征列让模型实例化；该模型得出的不同输出数字，比如这里是3；还有存储模型训练过程和输出文件的目录。这使TensorFlow能够在有需要的情况下，继续进行之前的训练。

输入函数

分类对象能帮我们记录状态，然后我们差不多可以进入训练阶段了。最后还有一个连接模型和训练数据的部分，即输入函数。输入函数的作用是创建TensorFlow操作，从而从模型中生成数据。