热线电话:13121318867

登录
2020-12-23 阅读量: 1191
有哪些优秀的中文分词第三方库?

jieba库的使用

-中文文本需要通过分词获得单个的词语

-jieba是第三方库,需要额外安装:

-pip install jieba

jieba分词的三种模式

-精确模式:把文本精确地分开,不存在冗余的单词

-全模式:把一段文本中所有可能的词语都扫描出来,存在冗余

-搜索引擎模式:在精确模式的基础上,对于长词进行再切分

jieba库常用函数

jieba.lcut(s)、jieba.lcut(s , cut_all=True)、jieba.lcut_for_search(s)
import jieba
a = jieba.lcut("冬天到了春天还会远吗")                       
 #精确模式b = jieba.lcut("冬天到了春天还会远吗" , cut_all=True)       
  #全模式c = jieba.lcut_for_search("中华人民共和国是一个伟大的国家")   
 #搜索引擎模式print(a)print(b)print(c)#输出:['冬天', '到', '了', '春天', '还会', '远', '吗']['冬天', '到', '了', '春天', '还', '会', '远', '吗']['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家']
1


59.9825
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子