京公网安备 11010802034615号
经营许可证编号:京B2-20210330
交叉表显示了每个变量的不同类别组合中观察到的频率或计数。通俗地说,就是根据不同列的数据统计了频数
df = pd.DataFrame(
{ 'High': ["高", "高", "高", "中", "中", "中", "低", "低", "低", "高", "低"],
'Weight': ["重", "轻", "中", "中", "轻", "重", "重", "轻", "中", "重", "轻"]
})
df
pd.crosstab(df['High'], df['Weight'])
| Weight | 中 | 轻 | 重 |
|---|---|---|---|
| High | |||
| 中 | 1 | 1 | 1 |
| 低 | 1 | 2 | 1 |
| 高 | 1 | 1 | 2 |
双层crosstab
df = pd.DataFrame(
{ 'High': ["高", "高", "高", "中", "中", "中", "低", "低", "低", "高", "低"],
'Weight': ["重", "轻", "中", "中", "轻", "重", "重", "轻", "中", "重", "轻"],
'Size': ["大", "中", "小", "中", "中", "大", "中", "小", "小", "大", "小"]})
df
| High | Weight | Size | |
|---|---|---|---|
| 0 | 高 | 重 | 大 |
| 1 | 高 | 轻 | 中 |
| 2 | 高 | 中 | 小 |
| 3 | 中 | 中 | 中 |
| 4 | 中 | 轻 | 中 |
| 5 | 中 | 重 | 大 |
| 6 | 低 | 重 | 中 |
| 7 | 低 | 轻 | 小 |
| 8 | 低 | 中 | 小 |
| 9 | 高 | 重 | 大 |
| 10 | 低 | 轻 | 小 |
pd.crosstab(df['High'], [df['Weight'], df['Size']], rownames=['High'], colnames=['Weight', 'Size'])
| Weight | 中 | 轻 | 重 | |||
|---|---|---|---|---|---|---|
| Size | 中 | 小 | 中 | 小 | 中 | 大 |
| High | ||||||
| 中 | 1 | 0 | 1 | 0 | 0 | 1 |
| 低 | 0 | 1 | 0 | 2 | 1 | 0 |
| 高 | 0 | 1 | 1 | 0 | 0 | 2 |
另一种 宽表转长表 pd.wide_to_long()
np.random.seed(123)
df = pd.DataFrame({"A1970" : {0 : "a", 1 : "b", 2 : "c"},
"A1980" : {0 : "d", 1 : "e", 2 : "f"},
"B1970" : {0 : 2.5, 1 : 1.2, 2 : .7},
"B1980" : {0 : 3.2, 1 : 1.3, 2 : .1},
"X" : dict(zip(range(3), np.random.randn(3)))
})
df["id"] = df.index
df
| A1970 | A1980 | B1970 | B1980 | X | id | |
|---|---|---|---|---|---|---|
| 0 | a | d | 2.5 | 3.2 | -1.085631 | 0 |
| 1 | b | e | 1.2 | 1.3 | 0.997345 | 1 |
| 2 | c | f | 0.7 | 0.1 | 0.282978 | 2 |
把id 列用作标识列
pd.wide_to_long(df, ["A", "B"], i="id", j="year")
| X | A | B | ||
|---|---|---|---|---|
| id | year | |||
| 0 | 1970 | -1.085631 | a | 2.5 |
| 1 | 1970 | 0.997345 | b | 1.2 |
| 2 | 1970 | 0.282978 | c | 0.7 |
| 0 | 1980 | -1.085631 | d | 3.2 |
| 1 | 1980 | 0.997345 | e | 1.3 |
| 2 | 1980 | 0.282978 | f | 0.1 |
df = pd.DataFrame({
'famid': [1, 1, 1, 2, 2, 2, 3, 3, 3],
'birth': [1, 2, 3, 1, 2, 3, 1, 2, 3],
'ht1': [2.8, 2.9, 2.2, 2, 1.8, 1.9, 2.2, 2.3, 2.1],
'ht2': [3.4, 3.8, 2.9, 3.2, 2.8, 2.4, 3.3, 3.4, 2.9]
})
df
| famid | birth | ht1 | ht2 | |
|---|---|---|---|---|
| 0 | 1 | 1 | 2.8 | 3.4 |
| 1 | 1 | 2 | 2.9 | 3.8 |
| 2 | 1 | 3 | 2.2 | 2.9 |
| 3 | 2 | 1 | 2.0 | 3.2 |
| 4 | 2 | 2 | 1.8 | 2.8 |
| 5 | 2 | 3 | 1.9 | 2.4 |
| 6 | 3 | 1 | 2.2 | 3.3 |
| 7 | 3 | 2 | 2.3 | 3.4 |
| 8 | 3 | 3 | 2.1 | 2.9 |
把famid, birth 两列用作标识列
l = pd.wide_to_long(df, stubnames='ht', i=['famid', 'birth'], j='age')
l
| ht | |||
|---|---|---|---|
| famid | birth | age | |
| 1 | 1 | 1 | 2.8 |
| 2 | 3.4 | ||
| 2 | 1 | 2.9 | |
| 2 | 3.8 | ||
| 3 | 1 | 2.2 | |
| 2 | 2.9 | ||
| 2 | 1 | 1 | 2.0 |
| 2 | 3.2 | ||
| 2 | 1 | 1.8 | |
| 2 | 2.8 | ||
| 3 | 1 | 1.9 | |
| 2 | 2.4 | ||
| 3 | 1 | 1 | 2.2 |
| 2 | 3.3 | ||
| 2 | 1 | 2.3 | |
| 2 | 3.4 | ||
| 3 | 1 | 2.1 | |
| 2 | 2.9 |
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05