Python 结巴（jieba）库之花拳绣腿

小半 • 2023年2月16日下午6:25 • Python • 阅读 468

导读：本篇文章讲解 Python 结巴（jieba）库之花拳绣腿，希望对大家有帮助，欢迎收藏，转发！站点地址：www.bmabk.com

目录

2、常用函数

结巴（jieba）库是百度工程师 Sun Junyi 开发的一个开源库，在 GitHub 上很受欢迎。

作为优秀的中文分词第三方库， jieba 最流行的应用是分词，除此之外，还可以做关键词抽取、词频统计等。

jieba 支持四种分词模式：

精确模式：试图将句子最精确地切开，不存在冗余单词；
搜索引擎模式：在精确模式基础上，对长词再次切分，提高召回率，适用于搜索引擎分词；
全模式：把句子中所有的可以成词的词语都扫描出来，有冗余；
paddle 模式，利用 PaddlePaddle 深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。

1、安装

windows语境下，调用控制台，输入命令行：

pip install jieba

Linux语境下，则需针对python的不同版本（2.x或3.x），使用不同的安装命令：

pip3 install jieba

2、常用函数

函数	描述
jieba.lcut(s)	精确模式，返回一个列表类型的分词结果 >>> jieba.lcut(‘伟大的中国人民万岁！’) [‘伟大’, ‘的’, ‘中国’, ‘人民’, ‘万岁’, ‘！’]
jieba.lcut(s, cut_all=True)	全模式，返回一个列表类型的分词结果，有冗余 >>> jieba.lcut(‘伟大的中国人民万岁！’, cut_all=True) [‘伟大’, ‘的’, ‘中国’, ‘国人’, ‘人民’, ‘万岁’, ‘！’]
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表类型的分词结果，有冗余 >>>jieba.lcut_for_search(‘伟大的中国人民万岁！万万岁！’) [‘伟大’, ‘的’, ‘中国’, ‘人民’, ‘万岁’, ‘！’, ‘万万’, ‘万岁’, ‘万万岁’, ‘！’]
jieba.add_word(w)	将新词 w 加入分词词典 >>>jieba.add_word(‘绝绝子’) >>>

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/106971.html

赞 (0)

0 0

Python

面对对象——封装，继承，多态

000298

小半
2022年12月12日
Python

【玩转python】Flask基金数据可视化

000242

小半
2022年12月12日
Python

python——常用的内置函数（2022-9-5更新了内容）

000373

飞熊
2023年3月5日
Python

网络编程（三）——客户端与服务端代码的bug修复

000259

飞熊
2023年3月4日
Python

数字较大的斐波那契数列计算（高速实现）

000267

飞熊
2023年8月8日
Python

Python列表的用法和基本操作

000304

小半
2024年2月23日
Python

高版本PyQt5 QWebEngineView 使用问题

000538

飞熊
2023年8月8日
Python

这款云笔记不仅免费，还方便手机和电脑同步

0001.2K

小半
2022年12月15日
Python

pandas如何根据指定某列或者某几列或者索引进行排序呢？

000231

小半
2022年11月2日
Python

利用Python进行数据分析

000419

小半
2023年12月16日
Python

从开源项目学技术

000387

小半
2023年12月29日
Python

Django Unfold：用 Python Django 快速高效打造现代化的管理后台

000233

小半
2025年1月27日

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！