2018-12-14
阅读量:
1324
什么是停用词?
停用词:停用词是搜索引擎被编程为忽略的常用词(例如“the”,“a”,“an”,“in”),用于索引搜索条目和检索它们时作为搜索查询的结果。
我们不希望这些单词在我们的数据库中占用空间,或占用宝贵的处理时间。为此,我们可以通过存储您认为是停用词的单词列表来轻松删除它们。python中的NLTK(自然语言工具包)有一个以16种不同语言存储的停用词列表。您可以在nltk_data目录中找到它们。home / pratima / nltk_data / corpora / stopwords是目录地址。(别忘了更改您的主目录名称)
0.0000
0
1
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
1条评论