#1 基本概念
-
分词:把一句话按不同的词性区分出来(动词、名词等) -
语义:一句话的重点是什么
#2 OpenCC英文全称
Open Chinese Convert
#3 安装OpenCC for Python
pip install opencc-python-reimplemented
#4 OpenCC简体转繁体
OpenCC(“s2t”)
from opencc import OpenCC
text = "我去过清华大学和交通大学,打印机,光盘,内存"
cc = OpenCC("s2t")
line = cc.convert(text)
# 我去過清華大學和交通大學,打印機,光盤,內存
#5 OpenCC简体转台湾繁体
cc.set_conversion(“s2twp”)
from opencc import OpenCC
text = "我去过清华大学和交通大学,打印机,光盘,内存"
cc = OpenCC("s2t")
cc.set_conversion("s2twp")
line = cc.convert(text)
# 我去過清華大學和交通大學,印表機,光碟,記憶體
#6 OpenCC繁体转简体
OpenCC(“t2s”)
from opencc import OpenCC
text = "我去過清華大學和交通大學,印表機,光碟,記憶體"
cc = OpenCC("t2s")
line = cc.convert(text)
# 去过清华大学和交通大学,印表机,光碟,记忆体
#7 OpenCC台湾繁体转简体
cc.set_conversion(“tw2sp”)
from opencc import OpenCC
text = "我去過清華大學和交通大學,印表機,光碟,記憶體"
cc = OpenCC("t2s")
cc.set_conversion("tw2sp")
line = cc.convert(text)
# 我去过清华大学和交通大学,打印机,光盘,内存
#8 安装中文分词工具jieba
pip install jieba
#9 jieba的三种分词模式
-
Full Mode(全模式) -
Default Mode(精确模式) -
cut_for_search(搜索引擎模式)
#10 jieba精确模式分词
jibe.cut()
import jieba
text = "我去过清华大学和交通大学"
segs = jieba.cut(text, cut_all=False, HMM=True)
print('/'.join(segs))
# 我/去过/清华大学/和/交通/大学
原文始发于微信公众号(Know Why It):《Python机器学习》笔记10条
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/276297.html