问题:运用python中的jieba语句进行分词时,得到的词频统计与word搜索数不一致
原因:cut_all参数设置的问题
>>import jieba
>>seg_list_exact = jieba.cut(data,cut_all = False)
cut_all参数用来选择分词模式;
1.False代表精准模式;当文本中出现“泵送公司”四个字时,如果我们想得到的分词为泵送,但python精准分词时,可能直接将泵送公司切成一个词,而不是切成“泵送”和“公司”,这样就会出现python得到的分词较word搜索出来的词频数少。
2.True代表全模式;当文本中出现“泵送公司”四个字时,python分词时,可以分出“泵送”,“公司”和“泵送公司”三个词出来,这个词频数与word搜索数保持一致。选择全模型切词时,python可能存在不能识别专有名词的情况——词频统计时未能识别统计品牌名“XX”,面对这个问题,我们可以手动添加词,完善字典。
加入语句:
>>jieba.add_word('XX')
如果需要加入的词语很多,则可以利用命令:
#获取自定义词典
jieba.load_userdict("C:/Users/lenovo/Desktop/dict.txt")
txt文件中为所需添加的词语
如果文本中无意义的词语很多,可以手动删除无意义的词,只需加入语句:
remove_words = [u'的', u',',u'和', u'是', u'随着', u'对于' ]#自定义去除词库
这样便可以完美的解决运用jieba分词中出现的问题。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/63085.html