【Python数据处理】jieba分词统计词频数与word搜索数不一致的问题

导读:本篇文章讲解 【Python数据处理】jieba分词统计词频数与word搜索数不一致的问题,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

问题:运用python中的jieba语句进行分词时,得到的词频统计与word搜索数不一致

原因:cut_all参数设置的问题

>>import jieba

>>seg_list_exact  = jieba.cut(data,cut_all = False)

cut_all参数用来选择分词模式;

1.False代表精准模式;当文本中出现“泵送公司”四个字时,如果我们想得到的分词为泵送,但python精准分词时,可能直接将泵送公司切成一个词,而不是切成“泵送”和“公司”,这样就会出现python得到的分词较word搜索出来的词频数少。

2.True代表全模式;当文本中出现“泵送公司”四个字时,python分词时,可以分出“泵送”,“公司”和“泵送公司”三个词出来,这个词频数与word搜索数保持一致。选择全模型切词时,python可能存在不能识别专有名词的情况——词频统计时未能识别统计品牌名“XX”,面对这个问题,我们可以手动添加词,完善字典。

加入语句:

>>jieba.add_word('XX')

如果需要加入的词语很多,则可以利用命令:

#获取自定义词典
jieba.load_userdict("C:/Users/lenovo/Desktop/dict.txt")

txt文件中为所需添加的词语

如果文本中无意义的词语很多,可以手动删除无意义的词,只需加入语句:

remove_words = [u'的', u',',u'和', u'是', u'随着', u'对于' ]#自定义去除词库

这样便可以完美的解决运用jieba分词中出现的问题。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/63085.html

(0)
小半的头像小半

相关推荐

极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!