elasticsearch实现中文分词+远程自定义词库(nginx)

小半 • 2023年2月3日下午10:10 • 技术随笔 • 阅读 510

导读：本篇文章讲解 elasticsearch实现中文分词+远程自定义词库(nginx)，希望对大家有帮助，欢迎收藏，转发！站点地址：www.bmabk.com

elasticsearch实现中文分词+远程自定义词库nginx

一、中文分词
二、为什么要用远程词库？
- - 实现方式

一、中文分词

elasticsearch本身自带的中文分词，就是单纯把中文一个字一个字的分开，根本没有词汇的概念。但是实际应用中，用户都是以词汇为条件，进行查询匹配的，如果能够把文章以词汇为单位切分开，那么与用户的查询条件能够更贴切的匹配上，查询速度也更加快速。

分词器下载网址：https://github.com/medcl/elasticsearch-analysis-ik

下载好的zip包，请解压后放到 /usr/share/elasticsearch/plugins/ik

二、为什么要用远程词库？

过滤一些不能够出现的词语，以及一些流行词语。

实现方式

同将远程词库放在Nginx中当静态资源使用
nginx安装参考https://blog.csdn.net/qq_45887180/article/details/120038664
这样添加的词语不用重启两个服务都就可以直接使用
需要的配置：
修改/usr/share/elasticsearch/plugins/ik/config/中的IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 -->
        <entry key="ext_dict"></entry>
         <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords"></entry>
        <!--用户可以在这里配置远程扩展字典 -->
         <entry key="remote_ext_dict">http://192.168.67.163/es/fenci.txt</entry>
        <!--用户可以在这里配置远程扩展停止词字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

并且在/mydata/nginx/html/下创建es文件夹，并创建一个fenci.txt，用来存放单词

单词用回车分开，每一行代表一个词。
测试访问nginx的静态资源

用kibana测试ik自定义分词词库

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/91012.html

赞 (0)

0 0

技术随笔

即时（JIT）编译器编译对象与触发条件（方法调用计数器与回边计数器）

000173

飞熊
2024年2月15日
技术随笔

Laravel 查询条件为浮点解决方法

000256

小半
2023年2月11日
技术随笔

VMware虚拟机安装kali系统

000496

小半
2023年1月27日
技术随笔

应用层常见协议

000224

小半
2023年2月13日
技术随笔

Java字符串指定部分进行反转

000322

飞熊
2023年8月9日
技术随笔

GoWeb 的 MVC 入门实战案例，基于 Iris 框架实现（附案例全代码）

000486

小半
2023年1月17日
技术随笔

Java集合：浅谈LinkedList

000272

小半
2023年2月9日
技术随笔

LOAM系列——ISCLOAM配置、编译、问题解决及VLP16测试效果（完结版）

000293

飞熊
2023年4月4日
技术随笔

SpringBoot限制文件或图片上传大小的配置方法

000573

飞熊
2023年8月3日
技术随笔

MySql系列：研发应该懂的binlog（下）

000275

小半
2023年2月10日
技术随笔

未来因为你出“粽“

000207

飞熊
2023年8月22日
技术随笔

Linux-组管理和权限管理

000226

小半
2023年1月21日

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！