数据预处理之数据归一化-CDA数据分析师官网

数据预处理之数据归一化

2018-02-28

数据预处理之数据归一化

一、简单缩放

分为：最大值缩放和均值缩放

在简单缩放中，我们的目的是通过对数据的每一个维度的值进行重新调节（这些维度可能是相互独立的），使得最终的数据向量落在[0,1]或[− 1,1]的区间内（根据数据情况而定）。

例子:在处理自然图像时，我们获得的像素值在[0,255]区间中，常用的处理是将这些像素值除以255，使它们缩放到[0,1]中。

二、逐样本均值消减(也称为移除直流分量)

如果你的数据是平稳的（即数据每一个维度的统计都服从相同分布），那么你可以考虑在每个样本上减去数据的统计平均值(逐样本计算)。

例子：对于图像，这种归一化可以移除图像的平均亮度值(intensity)。很多情况下我们对图像的照度并不感兴趣，而更多地关注其内容，这时对每个数据点移除像素的均值是有意义的。

注意：虽然该方法广泛地应用于图像，但在处理彩色图像时需要格外小心，具体来说，是因为不同色彩通道中的像素并不都存在平稳特性。

例如

Caffe demo 里头的 classification_demo.m脚本文件中对原始数据有这样的处理

im_data = im_data - mean_data;

三、特征标准化(使数据集中所有特征都具有零均值和单位方差)

特征标准化的具体做法是：首先计算每一个维度上数据的均值（使用全体数据计算），之后在每一个维度上都减

去该均值。下一步便是在数据的每一维度上除以该维度上数据的标准差。

简单的说就是：减去原始数据的均值再除以原始数据的标准差

例子

x = [ones(m, 1), x];

%x包括2个特征值和1个偏置项，所以矩阵x的规模是 x:[mX3]

sigma = std(x);%X的标准差；mu = mean(x);%X的均值；x(:,2) = (x(:,2) - mu(2))./ sigma(2);x(:,3) = (x(:,3) - mu(3))./ sigma(3);

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

特征 Caffe

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇商业活动中数据重要性分析

下一篇初学者如何从零学习人工智能

数据预处理之数据归一化

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】你在纳闷用户为啥流失?华为已经用关系分析 ...

【干货】2小时用AI完成的SQL教程也太赞了吧，不推荐 ...

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...