2020-12-23
阅读量:
1191
有哪些优秀的中文分词第三方库?
jieba库的使用
-中文文本需要通过分词获得单个的词语
-jieba是第三方库,需要额外安装:
-pip install jieba
jieba分词的三种模式
-精确模式:把文本精确地分开,不存在冗余的单词
-全模式:把一段文本中所有可能的词语都扫描出来,存在冗余
-搜索引擎模式:在精确模式的基础上,对于长词进行再切分
jieba库常用函数
jieba.lcut(s)、jieba.lcut(s , cut_all=True)、jieba.lcut_for_search(s) import jieba a = jieba.lcut("冬天到了春天还会远吗") #精确模式b = jieba.lcut("冬天到了春天还会远吗" , cut_all=True) #全模式c = jieba.lcut_for_search("中华人民共和国是一个伟大的国家") #搜索引擎模式print(a)print(b)print(c)#输出:['冬天', '到', '了', '春天', '还会', '远', '吗']['冬天', '到', '了', '春天', '还', '会', '远', '吗']['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家'] 1
59.9825
1
0
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
0条评论