手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处理

2021-08-25

来源：Python爬虫与数据挖掘

作者： Python进阶者

大家好，我是Python进阶者。

一、前言

大家好，我是Python进阶者，上个礼拜的时候，我的Python交流群里有个名叫程序的大佬，头像是绿色菜狗的那位，在Python交流群里边的人应该都知道我说的是哪个大佬了，他提供了一份初始淘宝数据，数据乍看上去非常杂乱无章，但是经过小小明大佬的神化处理之后，一秒就变清晰了，真是太神了，然后就有了后续的数据分词处理和可视化等内容了，可能群里的人平时工作太忙，没有来得及看群消息，作为热心的群主，这里给大家整理成一篇文章，感兴趣的小伙伴，可以去实操一下，还是可以学到很多东西的。言归正传，一起来学习下今天的数据分析内容吧。

二、原始数据预处理

1、原始数据

在未经过处理之前的数据，长这样，大家可以看看，全部存储在一个单元格里边了，看得十分的让人难受。如下图所示。

手把手教你用Pandas库对淘宝原始数据进行<a href='/map/shujuchuli/' style='color:#000;font-size:inherit;'>数据处理</a>和分词处理

按照常规来说，针对上面的数据，我们肯定会选择Excel里边的数据分列进行处理，然后依次的去根据空格、冒号去分割，这样可以得到一份较为清晰的数据表，诚然，这种方法确实可行，但是小小明大佬另辟蹊径，给大家用Python中的正则表达式来处理这个数据，处理方法如下。

2、原始数据预处理

小小明大佬直接使用正则表达式re模块和pandas模块进行处理，方法可谓巧妙，一击即中，数据处理代码如下。

import re import pandas as pd
result = [] with open(r"淘宝数据.csv") as f: for line in f:
        row = dict(re.findall("([^：t]+)：([^：t]+)", line)) if row:
            result.append(row)
df = pd.DataFrame(result)
df.to_excel('new_data.xlsx', encoding='utf-8')
print(df)

之后我们可以看到效果图，如下图所示，这下是不是感觉到清爽了很多呢？

至此，我们对原始的数据进行了预处理，但是这还不够，我们今天主要的目标是对上面数据中的两列：配料表和保质期进行数据分析，接下来继续我们的数据处理和分析。

三、对配料表和保质期列进行处理

一开始的时候，程序大佬对配料表和保质期这两列的数据进行处理，但是来回得到的分词中总有一些特殊字符，如下图所示，我们可以看到这些字符里边有%、顿号、空格等内容。

我们都知道，这些是我们不需要的字符，当时我们在群里讨论的时候，我们就想到使用停用词去针对这些扰人的字符进行处理，代码如下。

# 创建停用词list def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='gbk').readlines()] return stopwords # 对句子进行分词 def seg_sentence(sentence): sentence_seged = jieba.cut(sentence.strip())
    stopwords = stopwordslist('stop_word.txt') # 这里加载停用词的路径 outstr = '' for word in sentence_seged: if word not in stopwords: if word != 't':
                outstr += word
                outstr += " " return outstr

其中stop_word.txt是小编之前在网上找到的一个存放一些常用特殊字符的txt文件，这个文件内容可以看看下图。

如上图所示，大概有1894个词左右，其实在做词频分析的时候，使用停用词去除特殊字符是经常会用到的，感兴趣的小伙伴可以收藏下，也许后面你会用到呢？代码和数据我统一放到文末了，记得去取就行。经过这一轮的数据处理之后，我们得到的数据就基本上没有太多杂乱的字符了，如下图所示。

得到这些数据之后，接下来我们需要对这些词语做一些词频统计，并且对其进行可视化。如果还有想法的话，也可以直接套用词云模板，生成漂亮的词云图，也未尝不可。

四、词频统计

关于词频统计这块，小编这里介绍两种方法，两个代码都是可以用的，条条大路通罗马，一起来看看吧！

方法一：常规处理

这里使用的是常规处理的方法，代码亲测可用，只需要将代码中的1.txt进行替换成你自己的那个需要分词统计的文档即可，然后系统会自动给你生成一个Excel表格和一个TXT文件，内容都是一样的，只不过一个是表格，一个是文本。

#!/usr/bin/env python3 # -*- coding:utf-8 -*- import sys import jieba import jieba.analyse import xlwt # 写入Excel表的库 # reload(sys) # sys.setdefaultencoding('utf-8') if __name__ == "__main__":


    wbk = xlwt.Workbook(encoding='ascii')
    sheet = wbk.add_sheet("wordCount") # Excel单元格名字 word_lst = []
    key_list = [] for line in open('1.txt', encoding='utf-8'): # 1.txt是需要分词统计的文档 item = line.strip('nr').split('t') # 制表格切分 # print item tags = jieba.analyse.extract_tags(item[0]) # jieba分词 for t in tags:
            word_lst.append(t)


    word_dict = {} with open("wordCount_all_lyrics.txt", 'w') as wf2: # 打开文件 for item in word_lst: if item not in word_dict: # 统计数量 word_dict[item] = 1 else:
                word_dict[item] += 1 orderList = list(word_dict.values())
        orderList.sort(reverse=True) # print orderList for i in range(len(orderList)): for key in word_dict: if word_dict[key] == orderList[i]:
                    wf2.write(key + ' ' + str(word_dict[key]) + 'n') # 写入txt文档 key_list.append(key)
                    word_dict[key] = 0 for i in range(len(key_list)):
        sheet.write(i, 1, label=orderList[i])
        sheet.write(i, 0, label=key_list[i])
    wbk.save('wordCount_all_lyrics.xls') # 保存为 wordCount.xls文件

方法二：使用Pandas优化处理

这里使用Pandas方法进行处理，代码如下，小编也是亲测有效，小伙伴们也可以去尝试下。

def get_data(df): # 将食品添加剂这一列空的数据设置为无 # print(df) df.loc[:,'食品添加剂'] = df['食品添加剂'].fillna('无')
    df.loc[:,'保质期'] = df['保质期'].fillna('无')
    df.loc[:, '配料表'] = df['配料表'].fillna('无') #  分词并扩展提取 names = df.配料表.apply(jieba.lcut).explode() #  过滤长度小于等于1的词并去重 df1 = names[names.apply(len) > 1].value_counts() with pd.ExcelWriter("taobao.xlsx") as writer:
        df1.to_excel(writer, sheet_name='配料')


    df2 = pd.read_excel('taobao.xlsx', header=None, skiprows=1, names=['column1', 'column2'])
    print(df2)

上面两个代码都是可以用的，最后得到的表格数据，如下图所示。

从上图我们可以看到配料表里边的配料占比详情，有了上述的数据之后，接下来我们就可以对其进行可视化操作了。关于可视化的内容，小编也给大家已经准备好了，等待下一篇原创文章，给大家输出，敬请期待。

五、总结

大家好，我是Python进阶者。本文写到这里，基本上就告一段落了。本文基于一份杂乱的淘宝原始数据，利用正则表达式re库和Pandas数据处理对数据进行清洗，然后通过stop_word停用词对得到的文本进行分词处理，得到较为”干净“的数据，之后利用传统方法和Pandas优化处理两种方式对数据进行词频统计，针对得到的数据，下一步将利用Pyecharts库，进行多重可视化处理，包括但不限于饼图、柱状图、Table表、漏斗图、极化图等，通过一系列的改进和优化，一步步达到想要的效果，可以说是干货满满，实操性强，亲测有效。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据处理 python 正则表达式数据预处理 pandas 数据分析漏斗图柱状图

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇数据分析敏捷算法建模训练营正式上线！（脱产班）

下一篇EDIT数字化模型和企业算法架构系列，如何搭建企业级算法架构

手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处理

一、前言

二、原始数据预处理

三、对配料表和保质期列进行处理

四、词频统计

五、总结

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...