Python 结巴(jieba)库之花拳绣腿

导读:本篇文章讲解 Python 结巴(jieba)库之花拳绣腿,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

目录

1、安装

2、常用函数


       结巴(jieba)库是百度工程师 Sun Junyi 开发的一个开源库,在 GitHub 上很受欢迎。

       作为优秀的中文分词第三方库, jieba 最流行的应用是分词,除此之外,还可以做关键词抽取、词频统计等。

        jieba 支持四种分词模式:

  • 精确模式:试图将句子最精确地切开,不存在冗余单词;
  • 搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回率,适用于搜索引擎分词;
  • 全模式:把句子中所有的可以成词的词语都扫描出来,有冗余;
  • paddle 模式,利用 PaddlePaddle 深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。

1、安装

        windows语境下,调用控制台,输入命令行:

pip install jieba

        Linux语境下,则需针对python的不同版本(2.x或3.x),使用不同的安装命令:

pip3 install jieba

Python 结巴(jieba)库之花拳绣腿

2、常用函数

函数 描述
jieba.lcut(s)

精确模式,返回一个列表类型的分词结果

>>> jieba.lcut(‘伟大的中国人民万岁!’)

[‘伟大’, ‘的’, ‘中国’, ‘人民’, ‘万岁’, ‘!’]

jieba.lcut(s, cut_all=True)

全模式,返回一个列表类型的分词结果,有冗余

>>> jieba.lcut(‘伟大的中国人民万岁!’, cut_all=True)

[‘伟大’, ‘的’, ‘中国’, ‘国人’, ‘人民’, ‘万岁’, ‘!’]

jieba.lcut_for_search(s)

搜索引擎模式,返回一个列表类型的分词结果,有冗余

>>>jieba.lcut_for_search(‘伟大的中国人民万岁!万万岁!’)

[‘伟大’, ‘的’, ‘中国’, ‘人民’, ‘万岁’, ‘!’, ‘万万’, ‘万岁’, ‘万万岁’, ‘!’]

jieba.add_word(w)

将新词 w 加入分词词典

>>>jieba.add_word(‘绝绝子’)

>>>

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/106971.html

(0)
小半的头像小半

相关推荐

极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!