《Python机器学习》笔记10条

python学霸 • 2024年4月15日上午11:44 • Python • 阅读 386

#1 基本概念

分词：把一句话按不同的词性区分出来（动词、名词等）
语义：一句话的重点是什么

#2 OpenCC英文全称

Open Chinese Convert

#3 安装OpenCC for Python

pip install opencc-python-reimplemented

#4 OpenCC简体转繁体

OpenCC(“s2t”)

from opencc import OpenCC

text = "我去过清华大学和交通大学，打印机，光盘，内存"

cc = OpenCC("s2t")
line = cc.convert(text)
# 我去過清華大學和交通大學，打印機，光盤，內存

#5 OpenCC简体转台湾繁体

cc.set_conversion(“s2twp”)

from opencc import OpenCC

text = "我去过清华大学和交通大学，打印机，光盘，内存"

cc = OpenCC("s2t")
cc.set_conversion("s2twp")
line = cc.convert(text)
# 我去過清華大學和交通大學，印表機，光碟，記憶體

#6 OpenCC繁体转简体

OpenCC(“t2s”)

from opencc import OpenCC

text = "我去過清華大學和交通大學，印表機，光碟，記憶體"

cc = OpenCC("t2s")
line = cc.convert(text)
# 去过清华大学和交通大学，印表机，光碟，记忆体

#7 OpenCC台湾繁体转简体

cc.set_conversion(“tw2sp”)

from opencc import OpenCC

text = "我去過清華大學和交通大學，印表機，光碟，記憶體"

cc = OpenCC("t2s")
cc.set_conversion("tw2sp")
line = cc.convert(text)
# 我去过清华大学和交通大学，打印机，光盘，内存

#8 安装中文分词工具jieba

pip install jieba

#9 jieba的三种分词模式

Full Mode（全模式）
Default Mode（精确模式）
cut_for_search（搜索引擎模式）

#10 jieba精确模式分词

jibe.cut()

import jieba

text = "我去过清华大学和交通大学"

segs = jieba.cut(text, cut_all=False, HMM=True)
print('/'.join(segs))
# 我/去过/清华大学/和/交通/大学

原文始发于微信公众号（Know Why It）：《Python机器学习》笔记10条

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/276297.html