【Python数据处理】jieba分词统计词频数与word搜索数不一致的问题

小半 • 2022年12月19日下午4:30 • Python • 阅读 342

问题：运用python中的jieba语句进行分词时，得到的词频统计与word搜索数不一致

原因：cut_all参数设置的问题

>>import jieba

>>seg_list_exact  = jieba.cut(data,cut_all = False)

cut_all参数用来选择分词模式；

1.False代表精准模式；当文本中出现“泵送公司”四个字时，如果我们想得到的分词为泵送，但python精准分词时，可能直接将泵送公司切成一个词，而不是切成“泵送”和“公司”，这样就会出现python得到的分词较word搜索出来的词频数少。

2.True代表全模式；当文本中出现“泵送公司”四个字时，python分词时，可以分出“泵送”，“公司”和“泵送公司”三个词出来，这个词频数与word搜索数保持一致。选择全模型切词时，python可能存在不能识别专有名词的情况——词频统计时未能识别统计品牌名“XX”，面对这个问题，我们可以手动添加词，完善字典。

加入语句：

>>jieba.add_word('XX')

如果需要加入的词语很多，则可以利用命令：

#获取自定义词典
jieba.load_userdict("C:/Users/lenovo/Desktop/dict.txt")

txt文件中为所需添加的词语

如果文本中无意义的词语很多，可以手动删除无意义的词，只需加入语句：

remove_words = [u'的', u'，',u'和', u'是', u'随着', u'对于' ]#自定义去除词库

这样便可以完美的解决运用jieba分词中出现的问题。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/63085.html

【Python数据处理】jieba分词统计词频数与word搜索数不一致的问题

相关推荐

分享到: