python数据分析笔记—数据加载与整理-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读python数据分析笔记—数据加载与整理

python数据分析笔记—数据加载与整理

2017-02-18

python数据分析笔记—数据加载与整理

数据加载

导入文本数据

大数据

1、导入文本格式数据(CSV)的方法：

方法一：使用pd.read_csv()，默认打开csv文件。

大数据

9、10、11行三种方式均可以导入文本格式的数据。

特殊说明：第9行使用的条件是运行文件.py需要与目标文件CSV在一个文件夹中的时候可以只写文件名。第10和11行中文件名ex1.CSV前面的部分均为文件的路径。

方法二：使用pd.read.table(),需要指定是什么样分隔符的文本文件。用sep=””来指定。

大数据

2、当文件没有标题行时

可以让pandas为其自动分配默认的列名。

大数据

也可以自己定义列名。

大数据

3、将某一列作为索引，比如使用message列做索引。通过index_col参数指定’message’。

大数据

4、要将多个列做成一个层次化索引，只需传入由列编号或列名组成的列表即可。

大数据

5、文本中缺失值处理，缺失数据要么是没有(空字符串)，要么是用某个标记值表示的，默认情况下，pandas会用一组经常出现的标记值进行识别，如NA、NULL等。查找出结果以NAN显示。

大数据

6、逐块读取文本文件

如果只想读取几行(避免读取整个文件)，通过nrows进行制定即可。

大数据

7、对于不是使用固定分隔符分割的表格，可以使用正则表达式来作为read_table的分隔符。

大数据

(’\s+’是正则表达式中的字符)。

导入JSON数据

JSON数据是通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标注形式之一。通过json.loads即可将JSON对象转换成Python对象。(import json)

对应的json.dumps则将Python对象转换成JSON格式。

导入EXCEL数据

大数据

直接使用read_excel(文件名路径)进行获取，与读取CSV格式的文件类似。

导入数据库数据

主要包含两种数据库文件，一种是SQL 关系型数据库数据，另一种是非SQL型数据库数据即MongoDB数据库文件。

数据库文件是这几种里面比较难的，本人没有接触数据库文件，没有亲测，所以就不贴截图了。

数据整理

合并数据集

1、数据库风格的合并

数据库风格的合并与SQL数据库中的连接(join)原理一样。通过调用merge函数即可进行合并。

大数据

当没有指明用哪一列进行连接时，程序将自动按重叠列的列名进行连接，上述语句就是按重叠列“key”列进行连接。也可以通过on来指定连接列进行连接。

大数据

当两个对象的列名不同时，即两个对象没有共同列时，也可以分别进行指定。

大数据

Left_on是指左侧DataFrame中用作连接的列。

right_on是指右侧DataFrame中用作连接的列。

通过上面的语句得到的结果里面只有a和b对应的数据，c和d以及与之相关的数据被消去，这是因为默认情况下，merge做的是‘inner’连接，即sql中的内连接，取得两个对象的交集。也有其他方式连接：left、right、outer。用“how”来指明。

大数据

也可以根据多个键(列)进行合并，用on传入一个由列名组成的列表即可。

大数据

2、索引上的合并

(1)普通索引的合并

Left_index表示将左侧的行索引引用做其连接键

right_index表示将右侧的行索引引用做其连接键

上面两个用于DataFrame中的连接键位于其索引中，可以使用Left_index=True或right_index=True或两个同时使用来进行键的连接。

大数据

(2)层次化索引

与数据库中用on来根据多个键合并一样。

3、轴向连接(合并)

轴向连接，默认是在轴方向进行连接，也可以通过axis=1使其进行横向连接。

(1)对于numpy对象(数组)可以用numpy中的concatenation函数进行合并。

大数据

(2)对于pandas对象(如Series和DataFrame),可以pandas中的concat函数进行合并。

大数据

·4、合并重叠数据

对于索引全部或部分重叠的两个数据集，我们可以使用numpy的where函数来进行合并，where函数相当于if—else函数。

大数据

对于重复的数据显示出相同的数据，而对于不同的数据显示a列表的数据。同时也可以使用combine_first的方法进行合并。合并原则与where函数一致，遇到相同的数据显示相同数据，遇到不同的显示a列表数据。

大数据

重塑数据集

1、旋转数据

(1)重塑索引、分为stack(将数据的列旋转为行)和unstack(将数据的行旋转为列)。

(2)将‘长格式’旋转为‘宽格式’

2、转换数据

(1)数据替换，将某一值或多个值用新的值进行代替。(比较常用的是缺失值或异常值处理，缺失值一般都用NULL、NAN标记，可以用新的值代替缺失标记值)。方法是replace。

大数据

一对一替换：用np.nan替换-999

大数据

多对一替换：用np.nan替换-999和-1000.

大数据

多对多替换：用np.nan代替-999,0代替-1000.

大数据

也可以使用字典的形式来进行替换。

大数据

(2)离散化或面元划分，即根据某一条件将数据进行分组。

利用pd.cut()方式对一组年龄进行分组。

大数据

默认情况下，cut对分组条件的左边是开着的状态，右边是闭合状态。可以用left(right)=False来设置哪边是闭合的。

大数据

清理数据集

主要是指清理重复值，DataFrame中经常会出现重复行，清理数据主要是针对这些重复行进行清理。

大数据

利用drop_duplicates方法，可以返回一个移除了重复行的DataFrame.

大数据

默认情况下，此方法是对所有的列进行重复项清理操作，也可以用来指定特定的一列或多列进行。

大数据

默认情况下，上述方法保留的是第一个出现的值组合，传入take_last=true则保留最后一个。

大数据

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

大数据 DataFrame pandas numpy SQL 正则表达式 Series 异常值处理

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

python数据分析笔记—数据加载与整理

导入JSON数据

导入EXCEL数据

导入数据库数据

数据整理

合并数据集

重塑数据集

清理数据集

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据清洗全指南：基础核心+常用工具实操 ...

【CDA干货】数据挖掘与数据分析：区别、联系与职场 ...

CDA数据分析师：精通统计制图，让数据规律直观可感 ...

【CDA干货】MySQL分区键后，其他索引还生效吗？真相 ...

【CDA干货】Tableau同比环比增长率实操全指南：从入 ...

CDA数据分析师：特征处理实操指南，打通数据到价值 ...

【CDA干货】机器学习算法工程实用案例解析：从落地 ...

【CDA干货】卷积神经网络与无迹卡尔曼滤波融合：原 ...

CDA数据分析师：数据清洗实操指南，筑牢数据分析的 ...

【CDA干货】决策树模型变量重要性排序：原理、方法 ...

【CDA干货】Excel卡方检验实操全指南：从原理到落地 ...

CDA数据分析师：数据整合实操指南，打破数据孤岛， ...

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA数据分析师：数据读取实操指南，打通数据价值转 ...

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载