热线电话：13121318867

首页大数据时代数据分析师教程《Python数据分析极简入门》第2节 9 Pandas 文本数据

数据分析师教程《Python数据分析极简入门》第2节 9 Pandas 文本数据

2024-11-29

《Python数据分析极简入门》

第3节 9 Pandas 文本数据

import pandas as pd

1、cat() 拼接字符串

d = pd.DataFrame(['a', 'b', 'c'],columns = ['A'])
d

	A
0	a
1	b
2	c

将某列元素拼接一列特定字符串

d['A'].str.cat(['A', 'B', 'C'], sep=',')

0    a,A
1    b,B
2    c,C
Name: A, dtype: object

将某列的元素合并为一个字符串

d['A'].str.cat(sep=',')

'a,b,c'

2、split() 切分字符串

import numpy as np
import pandas as pd
d = pd.DataFrame(['a_b_c', 'c_d_e', np.nan, 'f_g_h'],columns = ['A'])
d

	A
0	a_b_c
1	c_d_e
2	NaN
3	f_g_h

将某列的字符串元素进行切分

d['A'].str.split('_')

0    [a, b, c]
1    [c, d, e]
2          NaN
3    [f, g, h]
Name: A, dtype: object

3、get() 获取指定位置的字符串

d = pd.DataFrame(['a_b_c', 'c_d_e', np.nan, 'f_g_h'],columns = ['A'])
d['A']

0    a_b_c
1    c_d_e
2      NaN
3    f_g_h
Name: A, dtype: object

d['A'].str.get(2)

0      b
1      d
2    NaN
3      g
Name: A, dtype: object

4、join() 对每个字符都用给定的字符串拼接起来（不常用）

d = pd.DataFrame(['a_b_c', 'c_d_e', np.nan, 'f_g_h'],columns = ['A'])
d['A']

0    a_b_c
1    c_d_e
2      NaN
3    f_g_h
Name: A, dtype: object

d['A'].str.join("!")

0    a!_!b!_!c
1    c!_!d!_!e
2          NaN
3    f!_!g!_!h
Name: A, dtype: object

5、contains() 是否包含表达式（很常用）

d['A'].str.contains('d')

0    False
1     True
2      NaN
3    False
Name: A, dtype: object

d.fillna('0')[d.fillna('0')['A'].str.contains('d')]

	A
1	c_d_e

d.fillna('0')[d['A'].fillna('0').str.contains('d|e')]

#表示或的关系用"A|B"，表示且用'A.*B|B.*A'

	A
1	c_d_e

6、replace() 替换

d['A'].str.replace("_", ".")

0    a.b.c
1    c.d.e
2      NaN
3    f.g.h
Name: A, dtype: object

7、repeat() 重复

d['A'].str.repeat(3)

0    a_b_ca_b_ca_b_c
1    c_d_ec_d_ec_d_e
2                NaN
3    f_g_hf_g_hf_g_h
Name: A, dtype: object

8、pad() 左右补齐

d['A'].str.pad(10, fillchar="0")

0    00000a_b_c
1    00000c_d_e
2           NaN
3    00000f_g_h
Name: A, dtype: object

d['A'].str.pad(10, side="right", fillchar="?")

0    a_b_c?????
1    c_d_e?????
2           NaN
3    f_g_h?????
Name: A, dtype: object

9、center() 中间补齐

d['A'].str.center(10, fillchar="?")

0    ??a_b_c???
1    ??c_d_e???
2           NaN
3    ??f_g_h???
Name: A, dtype: object

10、ljust() 右边补齐

d['A'].str.ljust(10, fillchar="?")

0    a_b_c?????
1    c_d_e?????
2           NaN
3    f_g_h?????
Name: A, dtype: object

11、rjust() 左边补齐

d['A'].str.rjust(10, fillchar="?")

0    ?????a_b_c
1    ?????c_d_e
2           NaN
3    ?????f_g_h
Name: A, dtype: object

12、zfill() 左边补0

d['A'].str.zfill(10)

0    00000a_b_c
1    00000c_d_e
2           NaN
3    00000f_g_h
Name: A, dtype: object

13、wrap() 在指定的位置加回车符号

d['A'].str.wrap(3)

0    a_bn_c
1    c_dn_e
2        NaN
3    f_gn_h
Name: A, dtype: object

14、slice() 按给定点的开始结束位置切割字符串

d['A'].str.slice(1,3)

0     _b
1     _d
2    NaN
3     _g
Name: A, dtype: object

15、slice_replace() 使用给定的字符串，替换指定的位置的字符

d['A'].str.slice_replace(1, 3, "?")

0    a?_c
1    c?_e
2     NaN
3    f?_h
Name: A, dtype: object

16、count() 计算给定单词出现的次数

d['A'].str.count("b")

0    1.0
1    0.0
2    NaN
3    0.0
Name: A, dtype: float64

17、startswith() 判断是否以给定的字符串开头

d['A'].str.startswith("a")

0     True
1    False
2      NaN
3    False
Name: A, dtype: object

18、endswith() 判断是否以给定的字符串结束

d['A'].str.endswith("e")

0    False
1     True
2      NaN
3    False
Name: A, dtype: object

19、findall() 查找所有符合正则表达式的字符，以数组形式返回

d['A'].str.findall("[a-z]")

0    [a, b, c]
1    [c, d, e]
2          NaN
3    [f, g, h]
Name: A, dtype: object

20、match() 检测是否全部匹配给点的字符串或者表达式

d['A'].str.match("[d-z]")

0    False
1    False
2      NaN
3     True
Name: A, dtype: object

21、extract() 抽取匹配的字符串出来，注意要加上括号，把你需要抽取的东西标注上

d['A'].str.extract("([d-z])")

	0
0	NaN
1	d
2	NaN
3	f

22、len() 计算字符串的长度

d['A'].str.len()

0    5.0
1    5.0
2    NaN
3    5.0
Name: A, dtype: float64

23、strip() 去除前后的空白字符

df = pd.DataFrame(['a_b  ', '  d_e  ', np.nan, 'f_g  '],columns = ['B'])
df['B']

0      a_b  
1      d_e  
2        NaN
3      f_g  
Name: B, dtype: object

df['B'].str.strip()

0    a_b
1    d_e
2    NaN
3    f_g
Name: B, dtype: object

24、rstrip() 去除后面的空白字符

df['B'].str.rstrip()

0      a_b
1      d_e
2      NaN
3      f_g
Name: B, dtype: object

25、lstrip() 去除前面的空白字符

df['B'].str.lstrip()

0    a_b  
1    d_e  
2      NaN
3    f_g  
Name: B, dtype: object

26、partition() 把字符串数组切割称为DataFrame，注意切割只是切割称为三部分，分隔符前，分隔符，分隔符后

d['A'] .str.partition('_')

	0	1	2
0	a	_	b_c
1	c	_	d_e
2	NaN	NaN	NaN
3	f	_	g_h

27、rpartition() 从右切起

d['A'].str.rpartition('_')

	0	1	2
0	a_b	_	c
1	c_d	_	e
2	NaN	NaN	NaN
3	f_g	_	h

28、lower() 全部小写

d['A'].str.lower()

0    a_b_c
1    c_d_e
2      NaN
3    f_g_h
Name: A, dtype: object

29、upper() 全部大写

d['A'].str.upper()

0    A_B_C
1    C_D_E
2      NaN
3    F_G_H
Name: A, dtype: object

30、find() 从左边开始，查找给定字符串的所在位置

d['A'].str.find('d')

0   -1.0
1    2.0
2    NaN
3   -1.0
Name: A, dtype: float64

31、rfind() 从右边开始，查找给定字符串的所在位置

d['A'].str.rfind('d')

0   -1.0
1    2.0
2    NaN
3   -1.0
Name: A, dtype: float64

32、index() 查找给定字符串的位置，注意，如果不存在这个字符串，那么会报错！

d['A'].str.index('_')

0    1.0
1    1.0
2    NaN
3    1.0
Name: A, dtype: float64

33、rindex() 从右边开始查找，给定字符串的位置

d['A'].str.rindex('_')

0    3.0
1    3.0
2    NaN
3    3.0
Name: A, dtype: float64

34、capitalize() 首字符大写

d['A'].str.capitalize()

0    A_b_c
1    C_d_e
2      NaN
3    F_g_h
Name: A, dtype: object

35、swapcase() 大小写互换

d['A'].str.capitalize()

0    A_b_c
1    C_d_e
2      NaN
3    F_g_h
Name: A, dtype: object

36、isalnum() 是否全部是数字和字母组成

d['A'].str.isalnum()

0    False
1    False
2      NaN
3    False
Name: A, dtype: object

37、isalpha() 是否全部是字母

d['A'].str.isalpha()

0    False
1    False
2      NaN
3    False
Name: A, dtype: object

38、isdigit() 是否全部都是数字

d['A'].str.isdigit()

0    False
1    False
2      NaN
3    False
Name: A, dtype: object

39、isspace() 是否空格

d['A'].str.isspace()

0    False
1    False
2      NaN
3    False
Name: A, dtype: object

40、islower() 是否全部小写

d['A'].str.islower()

0    True
1    True
2     NaN
3    True
Name: A, dtype: object

41、isupper() 是否全部大写

d['A'].str.isupper()

0    False
1    False
2      NaN
3    False
Name: A, dtype: object

42、istitle() 是否只有首字母为大写，其他字母为小写

d['A'].str.istitle()

0    False
1    False
2      NaN
3    False
Name: A, dtype: object

43、isnumeric() 是否是数字

d['A'].str.isnumeric()

0    False
1    False
2      NaN
3    False
Name: A, dtype: object

44、isdecimal() 是否全是数字

d['A'].str.isdecimal()

0    False
1    False
2      NaN
3    False
Name: A, dtype: object

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

DataFrame pandas numpy 正则表达式数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇数据分析师教程《Python数据分析极简入门》第2节 8-3 Pandas 数据重塑 - 数据交叉表

下一篇数据分析师教程《Python数据分析极简入门》第3节 10 Pandas 时序数据

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据分析师教程《Python数据分析极简入门》第2节 9 Pandas 文本数据

《Python数据分析极简入门》

第3节 9 Pandas 文本数据

1、cat() 拼接字符串

2、split() 切分字符串

3、get() 获取指定位置的字符串

4、join() 对每个字符都用给定的字符串拼接起来（不常用）

5、contains() 是否包含表达式 （很常用）

6、replace() 替换

7、repeat() 重复

8、pad() 左右补齐

9、center() 中间补齐

10、ljust() 右边补齐

11、rjust() 左边补齐

12、zfill() 左边补0

13、wrap() 在指定的位置加回车符号

14、slice() 按给定点的开始结束位置切割字符串

15、slice_replace() 使用给定的字符串，替换指定的位置的字符

16、count() 计算给定单词出现的次数

17、startswith() 判断是否以给定的字符串开头

18、endswith() 判断是否以给定的字符串结束

19、findall() 查找所有符合正则表达式的字符，以数组形式返回

20、match() 检测是否全部匹配给点的字符串或者表达式

21、extract() 抽取匹配的字符串出来，注意要加上括号，把你需要抽取的东西标注上

22、len() 计算字符串的长度

23、strip() 去除前后的空白字符

24、rstrip() 去除后面的空白字符

25、lstrip() 去除前面的空白字符

26、partition() 把字符串数组切割称为DataFrame，注意切割只是切割称为三部分，分隔符前，分隔符，分隔符后

27、rpartition() 从右切起

28、lower() 全部小写

29、upper() 全部大写

30、find() 从左边开始，查找给定字符串的所在位置

31、rfind() 从右边开始，查找给定字符串的所在位置

32、index() 查找给定字符串的位置，注意，如果不存在这个字符串，那么会报错！

33、rindex() 从右边开始查找，给定字符串的位置

34、capitalize() 首字符大写

35、swapcase() 大小写互换

36、isalnum() 是否全部是数字和字母组成

37、isalpha() 是否全部是字母

38、isdigit() 是否全部都是数字

39、isspace() 是否空格

40、islower() 是否全部小写

41、isupper() 是否全部大写

42、istitle() 是否只有首字母为大写，其他字母为小写

43、isnumeric() 是否是数字

44、isdecimal() 是否全是数字

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】机器学习算法工程实用案例解析：从落地 ...

【CDA干货】卷积神经网络与无迹卡尔曼滤波融合：原 ...

CDA数据分析师：数据清洗实操指南，筑牢数据分析的 ...

【CDA干货】决策树模型变量重要性排序：原理、方法 ...

【CDA干货】Excel卡方检验实操全指南：从原理到落地 ...

CDA数据分析师：数据整合实操指南，打破数据孤岛， ...

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA数据分析师：数据读取实操指南，打通数据价值转 ...

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

5、contains() 是否包含表达式（很常用）