机器学习算法的随机数据生成-CDA数据分析师官网

机器学习算法的随机数据生成

2016-12-02

机器学习算法的随机数据生成

在学习机器学习算法的过程中，我们经常需要数据来验证算法，调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能，我们可以自己生成适合某一种模型的数据，用随机数据来做清洗，归一化，转换，然后选择模型与算法做拟合和预测。下面对scikit-learn和numpy生成数据样本的方法做一个总结。

1. numpy随机数据生成API

numpy比较适合用来生产一些简单的抽样数据。API都在random类中，常见的API有：

1) rand(d0, d1, …, dn) 用来生成d0xd1x…dn维的数组。数组的值在[0,1]之间

例如：np.random.rand(3,2,2)，输出如下3x2x2的数组

array([[[ 0.49042678, 0.60643763],
[ 0.18370487, 0.10836908]],

[[ 0.38269728, 0.66130293],
[ 0.5775944 , 0.52354981]],

[[ 0.71705929, 0.89453574],
[ 0.36245334, 0.37545211]]])

2) randn((d0, d1, …, dn), 也是用来生成d0xd1x…dn维的数组。不过数组的值服从N(0,1)的标准正态分布。

例如：np.random.randn(3,2)，输出如下3×2的数组，这些值是N(0,1)的抽样数据。

array([[-0.5889483 , -0.34054626],
[-2.03094528, -0.21205145],
[-0.20804811, -0.97289898]])

如果需要服��$N(\mu,\sigma^2)$的正态分布，只需要在randn上每个生成的值x上做变换$\sigma x + \mu $即可，例如：

例如：2*np.random.randn(3,2) + 1，输出如下3×2的数组，这些值是N(1,4)的抽样数据。

array([[ 2.32910328, -0.677016 ],
[-0.09049511, 1.04687598],
[ 2.13493001, 3.30025852]])

3)randint(low[, high, size])，生成随机的大小为size的数据，size可以为整数，为矩阵维数，或者张量的维数。值位于半开区间 [low, high)。

例如：np.random.randint(3, size=[2,3,4])返回维数维2x3x4的数据。取值范围为最大值为3的整数。

array([[[2, 1, 2, 1],
[0, 1, 2, 1],
[2, 1, 0, 2]],

[[0, 1, 0, 0],
[1, 1, 2, 1],
[1, 0, 1, 2]]])

再比如： np.random.randint(3, 6, size=[2,3]) 返回维数为2×3的数据。取值范围为[3,6).

array([[4, 5, 3],
[3, 4, 5]])

4) random_integers(low[, high, size]),和上面的randint类似，区别在与取值范围是闭区间[low, high]。

5) random_sample([size]), 返回随机的浮点数，在半开区间 [0.0, 1.0)。如果是其他区间[a,b),可以加以转换(b – a) * random_sample([size]) + a

例如： (5-2)*np.random.random_sample(3)+2 返回[2,5)之间的3个随机数。

array([ 2.87037573, 4.33790491, 2.1662832 ])

2. scikit-learn随机数据生成API介绍

scikit-learn生成随机数据的API都在datasets类之中，和numpy比起来，可以用来生成适合特定机器学习模型的数据。常用的API有：

1) 用make_regression 生成回归模型的数据

2) 用make_hastie_10_2，make_classification或者make_multilabel_classification生成分类模型数据

3) 用make_blobs生成聚类模型数据

4) 用make_gaussian_quantiles生成分组多维正态分布的数据

3. scikit-learn随机数据生成实例

3.1 回归模型随机数据

这里我们使用make_regression生成回归模型数据。几个关键参数有n_samples(生成样本数)， n_features(样本特征数)，noise(样本随机噪音)和coef(是否返回回归系数)。例子代码如下：

输出的图如下：

3.2 分类模型随机数据

这里我们用make_classification生成三元分类模型数据。几个关键参数有n_samples(生成样本数)， n_features(样本特征数)， n_redundant(冗余特征数)和n_classes(输出的类别数)，例子代码如下：

输出的图如下：

3.3 聚类模型随机数据

这里我们用make_blobs生成聚类模型数据。几个关键参数有n_samples(生成样本数)， n_features(样本特征数)，centers(簇中心的个数或者自定义的簇中心)和cluster_std(簇数据方差，代表簇的聚合程度)。例子如下：

输出的图如下：

3.4 分组正态分布混合数据

我们用make_gaussian_quantiles生成分组多维正态分布的数据。几个关键参数有n_samples(生成样本数)， n_features(正态分布的维数)，mean(特征均值)， cov(样本协方差的系数)， n_classes(数据在正态分布中按分位数分配的组数)。例子如下：

输出图如下

以上就是生产随机数据的一个总结，希望可以帮到学习机器学习算法的朋友们。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

正态分布特征 numpy 机器学习聚类

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

机器学习算法的随机数据生成

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】Pyecharts的帕累托分析技术实现，3步学会 ...

从DeepSeek聊梁文峰传奇经历汲取能量，踏上CDA备考 ...

【教程】30000字长文，手把手教你用Python实现统计 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【干货】5分钟讲透数据分析之【对比分析】 ...

【干货】Deepseek教我数据可视化看板实时更新 ...

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】指标波动归因分析：数据背后的故事 ...

【干货】2小时用AI完成的SQL教程也太赞了吧，不推荐 ...

【干货】你在纳闷用户为啥流失?华为已经用关系分析 ...

【干货】5分钟学会数据可视化：使用Pyecharts绘制地 ...

金三银四求职季，四份宝典助你脱颖而出！ ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别