热线电话:13121318867

登录
2018-12-14 阅读量: 1324
什么是停用词?

停用词:停用词是搜索引擎被编程为忽略的常用词(例如“the”,“a”,“an”,“in”),用于索引搜索条目和检索它们时作为搜索查询的结果。

我们不希望这些单词在我们的数据库中占用空间,或占用宝贵的处理时间。为此,我们可以通过存储您认为是停用词的单词列表来轻松删除它们。python中的NLTK(自然语言工具包)有一个以16种不同语言存储的停用词列表。您可以在nltk_data目录中找到它们。home / pratima / nltk_data / corpora / stopwords是目录地址。(别忘了更改您的主目录名称)

使用NLTK停止删除单词

0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子