热线电话：13121318867

教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

2022-02-09

作者：Python进阶者

来源：Python爬虫与数据挖掘

前言

前几天有个叫【小明】的粉丝在问了一道关于Python处理文本可视化+语义分析的问题。

他要构建语料库，目前通过Python网络爬虫抓到的数据存在一个csv文件里边，现在要把数据放进txt里，表示不会，然后还有后面的词云可视化，分词，语义分析等，都不太会。

一、思路

内容稍微有点多，大体思路如下，先将csv中的文本取出，之后使用停用词做分词处理，再做词云图，之后做情感分析。

1、将csv文件中的文本逐行取出，存新的txt文件，这里运行代码《读取csv文件中文本并存txt文档.py》进行实现，得到文件《职位表述文本.txt》

2、运行代码《使用停用词获取最后的文本内容.py》，得到使用停用词获取最后的文本内容，生成文件《职位表述文本分词后_outputs.txt》

3、运行代码《指定txt词云图.py》，可以得到词云图；

4、运行代码《jieba分词并统计词频后输出结果到Excel和txt文档.py》，得到《wordCount_all_lyrics.xls》和《分词结果.txt》文件，将《分词结果.txt》中的统计值可以去除，生成《情感分析用词.txt》，给第五步情感分析做准备

5、运行代码《情感分析.py》，得到情感分析的统计值，取平均值可以大致确认情感是正还是负。

二、实现过程

1.将csv文件中的文本逐行取出，存新的txt文件

这里运行代码《读取csv文件中文本并存txt文档.py》进行实现，得到文件《职位表述文本.txt》，代码如下。

# coding: utf-8

import pandas as pd

df = pd.read_csv('./职位描述.csv', encoding='gbk')

# print(df.head())

for text in df['Job_Description']:

# print(text)

if text is not None:

with open('职位表述文本.txt', mode='a', encoding='utf-8') as file:

file.write(str(text))

print('写入完成')

2.使用停用词获取最后的文本内容

运行代码《使用停用词获取最后的文本内容.py》，得到使用停用词获取最后的文本内容，生成文件《职位表述文本分词后_outputs.txt》，代码如下：

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

import jieba

# jieba.load_userdict('userdict.txt')

# 创建停用词list

def stopwordslist(filepath):

stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]

return stopwords

# 对句子进行分词

def seg_sentence(sentence):

sentence_seged = jieba.cut(sentence.strip())

stopwords = stopwordslist('stop_word.txt') # 这里加载停用词的路径

outstr = ''

for word in sentence_seged:

if word not in stopwords:

if word != 't':

outstr += word

outstr += " "

return outstr

inputs = open('职位表述文本.txt', 'r', encoding='utf-8')

outputs = open('职位表述文本分词后_outputs.txt', 'w', encoding='utf-8')

for line in inputs:

line_seg = seg_sentence(line) # 这里的返回值是字符串

outputs.write(line_seg + 'n')

outputs.close()

inputs.close()

关键节点，都有相应的注释，你只需要替换对应的txt文件即可，如果有遇到编码问题，将utf-8改为gbk即可解决。

3.制作词云图

运行代码《指定txt词云图.py》，可以得到词云图，代码如下：

from wordcloud import WordCloud

import jieba

import numpy

import PIL.Image as Image

def cut(text):

wordlist_jieba=jieba.cut(text)

space_wordlist=" ".join(wordlist_jieba)

return space_wordlist

with open(r"C:UserspdcfiDesktopxiaoming职位表述文本.txt" ,encoding="utf-8")as file:

text=file.read()

text=cut(text)

mask_pic=numpy.array(Image.open(r"C:UserspdcfiDesktopxiaomingpython.png"))

wordcloud = WordCloud(font_path=r"C:/Windows/Fonts/simfang.ttf",

collocations=False,

max_words= 100,

min_font_size=10,

max_font_size=500,

mask=mask_pic).generate(text)

image=wordcloud.to_image()

# image.show()

wordcloud.to_file('词云图.png') # 把词云保存下来

如果想用你自己的图片，只需要替换原始图片即可。这里使用Python底图做演示，得到的效果如下：

4.分词统计

运行代码《jieba分词并统计词频后输出结果到Excel和txt文档.py》，得到《wordCount_all_lyrics.xls》和《分词结果.txt》文件，将《分词结果.txt》中的统计值可以去除，生成《情感分析用词.txt》，给第五步情感分析做准备，代码如下：

#!/usr/bin/env python3

# -*- coding:utf-8 -*-

import sys

import jieba

import jieba.analyse

import xlwt # 写入Excel表的库

# reload(sys)

# sys.setdefaultencoding('utf-8')

if __name__ == "__main__":

wbk = xlwt.Workbook(encoding='ascii')

sheet = wbk.add_sheet("wordCount") # Excel单元格名字

word_lst = []

key_list = []

for line in open('职位表述文本.txt', encoding='utf-8'): # 需要分词统计的原始目标文档

item = line.strip('nr').split('t') # 制表格切分

# print item

tags = jieba.analyse.extract_tags(item[0]) # jieba分词

for t in tags:

word_lst.append(t)

word_dict = {}

with open("分词结果.txt", 'w') as wf2: # 指定生成文件的名称

for item in word_lst:

if item not in word_dict: # 统计数量

word_dict[item] = 1

else:

word_dict[item] += 1

orderList = list(word_dict.values())

orderList.sort(reverse=True)

# print orderList

for i in range(len(orderList)):

for key in word_dict:

if word_dict[key] == orderList[i]:

wf2.write(key + ' ' + str(word_dict[key]) + 'n') # 写入txt文档

key_list.append(key)

word_dict[key] = 0

for i in range(len(key_list)):

sheet.write(i, 1, label=orderList[i])

sheet.write(i, 0, label=key_list[i])

wbk.save('wordCount_all_lyrics.xls') # 保存为 wordCount.xls文件

得到的txt和excel文件如下所示：

5.情感分析的统计值

运行代码《情感分析.py》，得到情感分析的统计值，取平均值可以大致确认情感是正还是负，代码如下：

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

from snownlp import SnowNLP

# 积极/消极

# print(s.sentiments) # 0.9769551298267365 positive的概率

def get_word():

with open("情感分析用词.txt", encoding='utf-8') as f:

line = f.readline()

word_list = []

while line:

line = f.readline()

word_list.append(line.strip('rn'))

f.close()

return word_list

def get_sentiment(word):

text = u'{}'.format(word)

s = SnowNLP(text)

print(s.sentiments)

if __name__ == '__main__':

words = get_word()

for word in words:

get_sentiment(word)

# text = u'''

# 也许

# '''

# s = SnowNLP(text)

# print(s.sentiments)

# with open('lyric_sentiments.txt', 'a', encoding='utf-8') as fp:

# fp.write(str(s.sentiments)+'n')

# print('happy end')

基于NLP 语义分析，程序运行之后，得到的情感得分值如下图所示：

将得数取平均值，一般满足0.5分以上，说明情感是积极的，这里经过统计之后，发现整体是积极的。

四、总结

我是Python进阶者。本文基于粉丝提问，针对一次文本处理，手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析，算是完成了一个小项目了。下次再遇到类似这种问题或者小的课堂作业，不妨拿本项目练练手，说不定有妙用噢，拿个高分不在话下！

CDA学员免费下载查看报告全文：2026全球数智化人才指数报告【CDA数据科学研究院】.pdf

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

情感分析词云图 NLP python 语义分析 numpy pandas 网络爬虫

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇干货 | 全网最新最全Pyecharts可视化教程

下一篇遇到100万行的 Excel，还没打开，电脑和我都崩溃了，该怎么办？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

前言

一、思路

二、实现过程

四、总结

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析与数据挖掘：必备工具与核心技 ...

【CDA干货】SQL 查询结果转换为字符串：场景、方法 ...

从汇总到洞察：CDA数据分析师视角下的透视分析方法 ...

从表格到洞察：数据分析师视角下的表格结构数据特征 ...

【CDA干货】最大最小距离法在Kmeans聚类中的应用困 ...

【CDA干货】随机森林特征重要性分析：原理、方法与 ...

【CDA干货】用户运营核心指标：拆解、应用与优化， ...

【CDA干货】数据模型、本体模型与业务模型：区别厘 ...

表格结构数据进阶：从类型识别到功能实战 ...

【CDA干货】模型质量测试对比：方法、维度与实操指 ...

【CDA干货】Python Requests库全方位对比解析：用法 ...

数据分析第一步：你真的读懂“表格结构数据”了吗？ ...

【CDA干货】回归方程筛选主要因子：方法、计算流程 ...

【CDA干货】学习曲线：验证机器学习模型过拟合的核 ...

流程为脉，专业为核：CDA数据分析师赋能商业数据分 ...

案例分享会 | 医疗行业数据分析实践（2026.04.09） ...

【CDA干货】Tableau两列数据求同比：实操方法、场景 ...

【CDA干货】集成学习赋能模型不确定性分析：原理、 ...

可视化传声，专业赋能：CDA数据分析师玩转统计制图 ...

【CDA干货】文本挖掘技术赋能跨文化传播研究：理论 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载