Python文本处理2个小案例（文本嗅探与关键词占比统计）-CDA数据分析师官网

热线电话：13121318867

Python文本处理2个小案例（文本嗅探与关键词占比统计）

2017-06-05

Python文本处理2个小案例（文本嗅探与关键词占比统计）

问题描述：有一些句子和一些关键词，现在想找出包含至少一个关键词的那些句子（文本嗅探），可以参考print('='*30)之前的代码。如果想进一步计算每个句子中的关键词占比（句子中所有关键词长度之和/句子长度），可以参考后面的代码。关键词占比是比较常用的一个文本分类标准，如果想根据关键词占比对句子进行分类的话，可以自行补充代码。

本文主要演示列表推导式、字符串对象用法以及生成器表达式和内置函数的用法。

from random import choice

from string import ascii_letters

def check(sentences, words):

'''返回包含至少一个关键词的句子列表'''

return [sentence \

for sentence in sentences\

if sum(sentence.count(word)\

for word in words)>0]

sentences = ['This is a test.',

'Beautiful is better than ugly.',

'Explicit is better than implicit.',

'Simple is better than complex.',

'Sparse is better than dense.',

'Readability counts.',

'Now is better than never.']

words = ['test', 'count', 'dense', 'is', 'simple']

result = check(sentences, words)

for item in result:

print(item)

print('='*30)

# 计算每个句子中所有关键字总长度的占比

d = {sentence:round(sum(sentence.count(word)*len(word)\

for word in words)/len(sentence),3)\

for sentence in result}

for item in d.items():

print(item)

cda数据分析师培训

运行结果：

This is a test.

Beautiful is better than ugly.

Explicit is better than implicit.

Simple is better than complex.

Sparse is better than dense.

Readability counts.

Now is better than never.

==============================

('This is a test.', 0.533)

('Beautiful is better than ugly.', 0.067)

('Explicit is better than implicit.', 0.061)

('Simple is better than complex.', 0.067)

('Sparse is better than dense.', 0.25)

('Readability counts.', 0.263)

('Now is better than never.', 0.08)

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

文本分类数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Python文本处理2个小案例（文本嗅探与关键词占比统计）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】实操指南：加快Python算法运行速度的四 ...

【CDA干货】解析神经网络中卷积的核心作用：提取数 ...

数字化转型攻坚：CDA数据分析师成为企业破局的核心 ...

【CDA干货】实操指南：数据透视表中两个计数项的公 ...

【CDA干货】实时赋能，精准预判：用户实时行为序列 ...

CDA数据分析师：企业数据安全管理方法论的落地者与 ...

【CDA干货】数据挖掘与数据分析：厘清边界，协同赋 ...

【CDA干货】特征重要性分析：从数据特征到业务价值 ...

CDA数据分析师：企业数据管理方法论的落地者与价值 ...

【CDA干货】序列模式挖掘在用户行为分析中的应用： ...

【CDA干货】Excel卡方检验完整教程：从零上手，轻松 ...

CDA数据分析师：决策树分析实战，可解释性建模的核 ...

【CDA干货】MLP模型隐藏层层数与单元个数确定指南： ...

【CDA干货】详解tensorflow_datasets.load函数：快 ...

CDA数据分析师：聚类分析实战，无监督学习下的精准 ...

【CDA干货】多参数综合作用：解锁机器学习精准性与 ...

【CDA干货】SQL Server CONVERT日期转换：从基础到 ...

CDA数据分析师：主成分分析（PCA）实战，破解高维数 ...

【CDA干货】随机森林算法中的特征重要性分析：原理 ...

【CDA干货】如何提升数据分析能力：从入门到精通的 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载