《Python机器学习》笔记10条

《Python机器学习》笔记10条

#1 基本概念
  • 分词:把一句话按不同的词性区分出来(动词、名词等)
  • 语义:一句话的重点是什么
#2 OpenCC英文全称

Open Chinese Convert

#3 安装OpenCC for Python
pip install opencc-python-reimplemented
#4 OpenCC简体转繁体

OpenCC(“s2t”)

from opencc import OpenCC

text = "我去过清华大学和交通大学,打印机,光盘,内存"

cc = OpenCC("s2t")
line = cc.convert(text)
# 我去過清華大學和交通大學,打印機,光盤,內存
#5 OpenCC简体转台湾繁体

cc.set_conversion(“s2twp”)

from opencc import OpenCC

text = "我去过清华大学和交通大学,打印机,光盘,内存"

cc = OpenCC("s2t")
cc.set_conversion("s2twp")
line = cc.convert(text)
# 我去過清華大學和交通大學,印表機,光碟,記憶體
#6 OpenCC繁体转简体

OpenCC(“t2s”)

from opencc import OpenCC

text = "我去過清華大學和交通大學,印表機,光碟,記憶體"

cc = OpenCC("t2s")
line = cc.convert(text)
# 去过清华大学和交通大学,印表机,光碟,记忆体
#7 OpenCC台湾繁体转简体

cc.set_conversion(“tw2sp”)

from opencc import OpenCC

text = "我去過清華大學和交通大學,印表機,光碟,記憶體"

cc = OpenCC("t2s")
cc.set_conversion("tw2sp")
line = cc.convert(text)
# 我去过清华大学和交通大学,打印机,光盘,内存
#8 安装中文分词工具jieba
pip install jieba
#9 jieba的三种分词模式
  • Full Mode(全模式)
  • Default Mode(精确模式)
  • cut_for_search(搜索引擎模式)
#10 jieba精确模式分词

jibe.cut()

import jieba

text = "我去过清华大学和交通大学"

segs = jieba.cut(text, cut_all=False, HMM=True)
print('/'.join(segs))
# 我/去过/清华大学/和/交通/大学


原文始发于微信公众号(Know Why It):《Python机器学习》笔记10条

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/276297.html

(0)
python学霸的头像python学霸bm

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!