热线电话:13121318867

登录
首页大数据时代数据分析师教程《Python数据分析极简入门》第2节 8-3 Pandas 数据重塑 - 数据交叉表
数据分析师教程《Python数据分析极简入门》第2节 8-3 Pandas 数据重塑 - 数据交叉表
2024-11-28
收藏

《Python数据分析极简入门》

第2节 8-3 Pandas 数据重塑 - 数据交叉表

数据交叉表

交叉表显示了每个变量的不同类别组合中观察到的频率或计数。通俗地说,就是根据不同列的数据统计了频数

df = pd.DataFrame(
    { 'High':  ["高""高""高""中""中""中""低""低""低""高""低"],
     'Weight': ["重""轻""中""中""轻""重""重""轻""中""重""轻"]
    })
df
pd.crosstab(df['High'], df['Weight']) 
Weight
High
1 1 1
1 2 1
1 1 2

双层crosstab

df = pd.DataFrame(
    { 'High':  ["高""高""高""中""中""中""低""低""低""高""低"],
     'Weight': ["重""轻""中""中""轻""重""重""轻""中""重""轻"],
     'Size':   ["大""中""小""中""中""大""中""小""小""大""小"]})
df
High Weight Size
0
1
2
3
4
5
6
7
8
9
10
pd.crosstab(df['High'], [df['Weight'], df['Size']], rownames=['High'], colnames=['Weight''Size']) 
Weight
Size
High
1 0 1 0 0 1
0 1 0 2 1 0
0 1 1 0 0 2

另一种 宽表转长表 pd.wide_to_long()

np.random.seed(123)
df = pd.DataFrame({"A1970" : {0 : "a"1 : "b"2 : "c"},
                   "A1980" : {0 : "d"1 : "e"2 : "f"},
                   "B1970" : {0 : 2.51 : 1.22 : .7},
                   "B1980" : {0 : 3.21 : 1.32 : .1},
                   "X"     : dict(zip(range(3), np.random.randn(3)))
                  })
df["id"] = df.index
df
A1970 A1980 B1970 B1980 X id
0 a d 2.5 3.2 -1.085631 0
1 b e 1.2 1.3 0.997345 1
2 c f 0.7 0.1 0.282978 2

id 列用作标识列

pd.wide_to_long(df, ["A""B"], i="id", j="year")
X A B
id year
0 1970 -1.085631 a 2.5
1 1970 0.997345 b 1.2
2 1970 0.282978 c 0.7
0 1980 -1.085631 d 3.2
1 1980 0.997345 e 1.3
2 1980 0.282978 f 0.1
df = pd.DataFrame({
    'famid': [111222333],
    'birth': [123123123],
    'ht1': [2.82.92.221.81.92.22.32.1],
    'ht2': [3.43.82.93.22.82.43.33.42.9]
})
df
famid birth ht1 ht2
0 1 1 2.8 3.4
1 1 2 2.9 3.8
2 1 3 2.2 2.9
3 2 1 2.0 3.2
4 2 2 1.8 2.8
5 2 3 1.9 2.4
6 3 1 2.2 3.3
7 3 2 2.3 3.4
8 3 3 2.1 2.9

famid, birth 两列用作标识列

l = pd.wide_to_long(df, stubnames='ht', i=['famid''birth'], j='age')
l
ht
famid birth age
1 1 1 2.8
2 3.4
2 1 2.9
2 3.8
3 1 2.2
2 2.9
2 1 1 2.0
2 3.2
2 1 1.8
2 2.8
3 1 1.9
2 2.4
3 1 1 2.2
2 3.3
2 1 2.3
2 3.4
3 1 2.1
2 2.9

数据分析咨询请扫描二维码

若不方便扫码,搜微信号:CDAshujufenxi

最新资讯
更多
客服在线
立即咨询