Sphinx是一个俄国人开发的搜索引擎：http://www.sphinxsearch.com/

Sphinx建索引速度是最快的，比Lucene快9倍以上。因此，Sphinx非常适合做准实时搜索引擎。

Sphinx是一款基于SQL的高性能全文检索引擎，Sphinx的性能在众多全文检索引擎中也是数一数二的，利用Sphinx，我们可以完成比数据库本身更专业的搜索功能，而且可以有很多针对性的性能优化。

Sphinx的特点

快速创建索引：3分钟左右即可创建近100万条记录的索引，并且采用了增量索引的方式，重建索引非常迅速。
闪电般的检索速度：尽管是1千万条的大数据量，查询数据的速度也在毫秒级以上，2-4G的文本量中平均查询速度不到0.1秒。
为很多脚本语言设计了检索API，如PHP,Python,Perl,Ruby等，因此你可以在大部分编程应用中很方便地调用Sphinx的相关接口。
为MySQL设计了一个存储引擎插件，因此如果你在MySQL上使用Sphinx，那简直就方便到家了。
支持分布式搜索，可以横向扩展系统性能。

PHP+MySQL+Sphinx 搜索引擎架构图

在MySQL中安装Sphinx

Sphinx在MySQL上安装有两种方式：

第一种方式是采用API调用，我们可以使用PHP,Python,Perl,Ruby等编程语言的API函数进行查询，这种方式不必重新编译MySQL，模块间改动比较少，相对灵活。
第二种需要重新编译MySQL，将Sphinx以插件的方式编译到MySQL中去，这种方式对程序改动比较少，仅仅需要改动SQL语句即可，但前提是你的MySQL版本必须在5.1以上。

下面是第一种安装方式：

#下载最新稳定版
wget http://www.sphinxsearch.com/downloads/sphinx-0.9.9.tar.gz
tar xzvf sphinx-0.9.9.tar.gz
cd sphinx-0.9.9
./configure --prefix=/usr/local/sphinx/   --with-mysql  --enable-id64
make
make install

Sphinx中文分词插件Coreseek安装

注：coreseek的安装教程来自这里，下面是详细过程：

安装升级autoconf

因为coreseek需要autoconf 2.64以上版本，因此需要升级autoconf，不然会报错。从http://download.chinaunix.net/download.php?id=29328&ResourceID=648下载autoconf-2.64.tar.bz2，安装方法如下：

tar -jxvf autoconf-2.64.tar.bz2
cd autoconf-2.64
./configure
make
make install

下载coreseek

新版本的coreseek将词典和sphinx源程序放在了一个包中，因此只需要下载coreseek包就可以了。

wget http://www.wapm.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz

安装mmseg(coreseek所使用的词典)

tar xzvf coreseek-3.2.14.tar.gz
cd mmseg-3.2.14
./bootstrap    #输出的warning信息可以忽略，如果出现error则需要解决
./configure --prefix=/usr/local/mmseg3
make && make install
cd ..

安装coreseek(sphinx)

cd csft-3.2.14
sh buildconf.sh    #输出的warning信息可以忽略，如果出现error则需要解决
./configure --prefix=/usr/local/coreseek  --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql
make && make install
cd ..

测试mmseg分词和coreseek搜索

备注：需要预先设置好字符集为zh_CN.UTF-8，确保正确显示中文，我的系统字符集为en_US.UTF-8也是可以的。

cd testpack
cat var/test/test.xml  #此时应该正确显示中文
/usr/local/mmseg3/bin/mmseg -d /usr/local/mmseg3/etc var/test/test.xml
/usr/local/coreseek/bin/indexer -c etc/csft.conf --all
/usr/local/coreseek/bin/search -c etc/csft.conf 网络搜索
此时正确的应该返回
words:
1. '网络': 1 documents, 1 hits
2. '搜索': 2 documents, 5 hits

生成 mmseg词库及配置文件

新版本的已经自动生成。

它的主要特点是：

一、性能非常出色
150万条记录一两分钟就索引完毕，2-4GB以内的文本检索速度不到0.1秒钟。ferret也望尘莫及，更不要说lucene了。

二、和数据库集成性很好
Sphinx通过配置文件可以自行读取数据库信息做索引，不依赖任何外部的应用程序，并且可以作为一个daemon进程启动，支持分布式检索，并发响应性能很好。因此很多过去使用ferret的人因为并发检索的问题都改用Sphinx了。

三、可以做MySQL的全文检索
MySQL的数据库引擎是可插拔的结构，Sphinx开发了一个SphinxSE数据库引擎，可以在编译MySQL的时候直接编译到MySQL里面去，这样的话，可以在数据库级别支持高性能的全文检索，那么你可以以如下SQL方式去全文检索了：

select * from xxxx where query=’test;sort=attr_asc:group_id’ AND ….;

很棒吧。

四、RoR支持也很棒
有一个acts_as_sphinx插件，类似acts_as_ferret，集成到RoR里面很简单。

Sphinx支持UTF-8编码的分词，但是他自己的文档上面说仅仅支持英文和俄文的分词，现在也有插件支持中文的了。

他和Lucene 的比较：

Lucene作为一个全文检索引擎，其具有如下突出的优点：
　　（1）索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式，使得兼容系统或者不同平台的应用能够共享建立的索引文件。
　　（2）在传统全文检索引擎的倒排索引的基础上，实现了分块索引，能够针对新的文件建立小文件索引，提升索引速度。然后通过与原有索引的合并，达到优化的目的。
　　（3）优秀的面向对象的系统架构，使得对于Lucene扩展的学习难度降低，方便扩充新功能。
　　（4）设计了独立于语言和文件格式的文本分析接口，索引器通过接受Token流完成索引文件的创立，用户扩展新的语言和文件格式，只需要实现文本分析的接口。
　　（5）已经默认实现了一套强大的查询引擎，用户无需自己编写代码即使系统可获得强大的查询能力，Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等等。

MG4J 是另一个搜索engine 。与Lucene 主要区别是，它提供了cluster 功能，具有更OO的设计方式。
　　MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引，通过使内插编码技术。

Sphinx支持高速建立索引（可达10MB/秒，而Lucene建立索引的速度是1.8MB/秒）
高性能搜索（在2-4 GB的文本上搜索，平均0.1秒内获得结果）
高扩展性（实测最高可对100GB的文本建立索引，单一索引可包含1亿条记录）
支持分布式检索
支持基于短语和基于统计的复合结果排序机制
支持任意数量的文件字段（数值属性或全文检索属性）
支持不同的搜索模式（“完全匹配”，“短语匹配”和“任一匹配”）
支持作为Mysql的存储引擎

1.2.Sphinx的特性

高速的建立索引(在当代CPU上，峰值性能可达到10 MB/秒);
高性能的搜索(在2 – 4GB 的文本数据上，平均每次检索响应时间小于0.1秒);
可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);
提供了优秀的相关度算法，基于短语相似度和统计（BM25）的复合Ranking方法;
支持分布式搜索;
支持短语搜索
提供文档摘要生成
可作为MySQL的存储引擎提供搜索服务;
支持布尔、短语、词语相似度等多种检索模式;
文档支持多个全文检索字段(最大不超过32个);
文档支持多个额外的属性信息(例如：分组信息，时间戳等);
支持断词;

1.3.Sphinx中文分词

中文的全文检索和英文等latin系列不一样，后者是根据空格等特殊字符来断词，而中文是根据语义来分词。目前大多数数据库尚未支持中文全文检索，如Mysql。故，国内出现了一些Mysql的中文全文检索的插件，做的比较好的有hightman的中文分词。Sphinx如果需要对中文进行全文检索，也得需要一些插件来补充。其中我知道的插件有 coreseek 和 sfc 。

Coreseek是现在用的最多的sphinx中文全文检索，它提供了为Sphinx设计的中文分词包LibMMSeg 。并提供了多个系统的二进制发行版，其中有rpm,deb及windows下的二进制包。另外，coreseek也为sphinx贡献了以下事项：
- GBK编码的数据源支持
- 采用Chih-Hao Tsai MMSEG算法的中文分词器
- 中文使用手册（这份中文手册对国内使用sphinx新手——特别是英语不太好的人来说，提供了极大的便利）
sfc（sphinx-for-chinese）是由网友happy兄提供的另外一个中文分词插件。其中文词典采用的是xdict。据其介绍,经过测试，目前版本在索引速度上(Linux 测试平台)基本上能够达到索引UTF-8英文的一半，即官方宣称速度的一半。（时间主要是消耗在分词上）。 现提供了与sphinx最新版(sphinx 0.9.10)同步的sphinx-for-chinese-0.9.10-dev-r2006.tar.gz 。此版本增加了sql_attr_string，经过本人的测试。其安装和配置都非常方便。happy兄在分词方面还有另外一个贡献——php-mmseg，这是php对中文分词的一个扩展库。

在此，对以上二位作者谨以最大的敬意

此外，如果你对中文分词不感兴趣。或者说仅需要实现类似sql中like的功能，如： select * from product where prodName like ‘%手机%’。sphinx也不会让你失望，这个或许就是官网对中文的简单实现——直接对字索引。并且搜索速度还不错^_^ 。

本文会对以上三种中文应用进行测试，并以文档的方式记录下来，这也许正是本文档的重点。

2.安装配置实例

2.1在GNU/Linux/unix系统上安装

Sphinx在mysql上的应用有两种方式：
①、采用API调用，如使用PHP、java等的API函数或方法查询。优点是可不必对mysql重新编译，服务端进程“低耦合”，且程序可灵活、方便的调用；
缺点是如已有搜索程序的条件下，需修改部分程序。推荐程序员使用。
②、使用插件方式（sphinxSE）把sphinx编译成一个mysql插件并使用特定的sql语句进行检索。其特点是，在sql端方便组合，且能直接返回数据给客户端
不必二次查询（注）,在程序上仅需要修改对应的sql，但这对使用框架开发的程序很不方便，比如使用了ORM。另外还需要对mysql进行重新编译，且需要mysql-5.1以上版本
支持插件存储。系统管理员可使用这种方式
二次查询注：到现在发布版本为止——sphinx-0.9.9，sphinx在检索到结果后只能返回记录的ID，而非要查的sql数据，故需要重新根据这些ID再次从数据库中查询，
正在开发的sphinx 0.9.10版本已可存储这些文本数据，作者曾试过，性能和存储上的效果都不佳，毕竟还没出正式版

本文采用的是第一种方式

在*nix系统下安装，首先需要以下一些软件支持

软件环境：

操作系统：Centos-5.2
数据库：mysql-5.0.77-3.el5 mysql-devel（如果要使用sphinxSE插件存储请使用mysql-5.1以上版本）
编译软件：gcc gcc-c++ autoconf automake
Sphinx ：Sphinx-0.9.9 (最新稳定版 )

安装：

[root@localhost ~]# yum install -y mysql mysql-devel
[root@localhost ~]# yum install -y automake autoconf
[root@localhost ~]# cd /usr/local/src/
[root@localhost src]# wget http://www.sphinxsearch.com/downloads/sphinx-0.9.9.tar.gz
[root@localhost src]# tar zxvf sphinx-0.9.9.tar.gz
[root@localhost local]# cd sphinx-0.9.9
[root@localhost sphinx-0.9.9]# ./configure –prefix=/usr/local/sphinx #注意：这里sphinx已经默认支持了mysql
[root@localhost sphinx-0.9.9]# make && make install # 其中的“警告”可以忽略

安装完毕后查看一下/usr/local/sphinx下是否有三个目录 bin etc var，如有，则安装无误！

2.1.2.sfc安装(点击进入)
2.1.3.coreseek安装（点击进入）

3.配置实例

3.1、数据源。

这里我们采用 mysql的数据源。具体情况如下：

Mysql server：192.168.1.10

Mysql db :test

Mysql 表：test.sphinx_article

mysql> desc sphinx_article;
+———–+———————+——+—–+———+—————-+
| Field | Type | Null | Key | Default | Extra |
+———–+———————+——+—–+———+—————-+
| id | int(11) unsigned | NO | PRI | NULL | auto_increment |
| title | varchar(255) | NO | | | |
| cat_id | tinyint(3) unsigned | NO | MUL | | |
| member_id | int(11) unsigned | NO | MUL | | |
| content | longtext | NO | | | |
| created | int(11) | NO | MUL | | |
+———–+———————+——+—–+———+—————-+
6 rows in set (0.00 sec)

3.2、配置文件

[root@localhost ~]#cd /usr/local/sphinx/etc #进入sphinx的配置文件目录
[root@localhost etc]# cp sphinx.conf.dist sphinx.conf #新建Sphinx配置文件
[root@localhost etc]# vim sphinx.conf #编辑sphinx.conf

具体实例配置文件：

##### 索引源 ###########
source article_src
{
type = mysql    #####数据源类型
sql_host = 192.168.1.10    ######mysql主机
sql_user = root   ########mysql用户名
sql_pass = pwd############mysql密码
sql_db = test #########mysql数据库名
sql_port= 3306 ###########mysql端口
sql_query_pre = SET NAMES UTF8 ###mysql检索编码，特别要注意这点，很多人中文检索不到是数据库的编码是GBK或其他非UTF8
sql_query = SELECT id,title,cat_id,member_id,content,created FROM sphinx_article ####### 获取数据的sql

#####以下是用来过滤或条件查询的属性############

sql_attr_uint = cat_id ######## 无符号整数属性
sql_attr_uint = member_id
sql_attr_timestamp = created ############ UNIX时间戳属性

sql_query_info = select * from sphinx_article where id=$id ######### 用于命令界面端(CLI)调用的测试

}

### 索引 ###

index article
{
source = article_src ####声明索引源
path = /usr/local/sphinx/var/data/article #######索引文件存放路径及索引的文件名
docinfo = extern ##### 文档信息存储方式
mlock = 0 ###缓存数据内存锁定
morphology = none #### 形态学（对中文无效）
min_word_len = 1 #### 索引的词最小长度
charset_type = utf-8 #####数据编码

##### 字符表，注意：如使用这种方式，则sphinx会对中文进行单字切分，
##### 即进行字索引，若要使用中文分词，必须使用其他分词插件如 coreseek，sfc

charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\
U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,\
U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,\
U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,\
U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, \
U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D,\
U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, \
U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, \
U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, \
U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, \
U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, \
U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159,\
U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, \
U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, \
U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, \
U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175,\
U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, \
U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, \
U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, \
U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, \
U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, \
U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, \
U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, \
U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, \
U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, \
U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, \
U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, \
U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, \
U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, \
U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, \
U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, \
U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, \
U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, \
U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, \
U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, \
U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, \
U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF
min_prefix_len = 0 #最小前缀
min_infix_len = 1 #最小中缀
ngram_len = 1 # 对于非字母型数据的长度切割

#加上这个选项，则会对每个中文，英文字词进行分割，速度会慢
#ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
#U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
#U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
#U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF

}

######### 索引器配置 #####
indexer
{
mem_limit = 256M ####### 内存限制
}

############ sphinx 服务进程 ########
searchd
{
#listen = 9312 ### 监听端口，在此版本开始，官方已在IANA获得正式授权的9312端口，以前版本默认的是3312

log = /usr/local/sphinx/var/log/searchd.log #### 服务进程日志，一旦sphinx出现异常，基本上可以从这里查询有效信息，轮换（rotate）出的问题一般可在此寻到答案
query_log = /usr/local/sphinx/var/log/query.log ### 客户端查询日志，笔者注：若欲对一些关键词进行统计，可以分析此日志文件
read_timeout = 5 ## 请求超时
max_children = 30 ### 同时可执行的最大searchd 进程数
pid_file = /usr/local/sphinx/var/log/searchd.pid #######进程ID文件
max_matches = 1000 ### 查询结果的最大返回数
seamless_rotate = 1 ### 是否支持无缝切换，做增量索引时通常需要
}

3.3、建立索引文件

[root@localhost sphinx]# bin/indexer -c etc/sphinx.conf article ### 建立索引文件的命令
Sphinx 0.9.9-release (r2117)
Copyright (c) 2001-2009, Andrew Aksyonoff

using config file ‘etc/sphinx.conf’…
indexing index ‘article’…
collected 1000 docs, 0.2 MB
sorted 0.4 Mhits, 99.6% done
total 1000 docs, 210559 bytes
total 3.585 sec, 58723 bytes/sec, 278.89 docs/sec
total 2 reads, 0.031 sec, 1428.8 kb/call avg, 15.6 msec/call avg
total 11 writes, 0.032 sec, 671.6 kb/call avg, 2.9 msec/call avg
[root@localhost sphinx]#
出现以上代表已经索引成功，若不成功的话请根据提示的错误修改配置文件，或到这里提问，我看到后会尽快解决

4.应用

4.1 在CLI上测试

在上一步中，我们建立了索引，现在我们对刚建立的索引进行测试。测试有两种方式：CLI端和API调用

在CLI端上命令测试是使用sphinx自带的搜索命令：search

###### 在article索引上检索 “北京”关键词 ########
[root@localhost sphinx]# bin/search -c etc/sphinx.conf 北京
Sphinx 0.9.9-release (r2117)
Copyright (c) 2001-2009, Andrew Aksyonoff

using config file ‘etc/sphinx.conf’…
index ‘article’: query ‘北京 ‘: returned 995 matches of 995 total in 0.008 sec

displaying matches:
1. document=76, weight=2, cat_id=1, member_id=2, created=Sat Jan 23 19:05:09 2010
id=76
title=??????????
cat_id=1
member_id=2
content=????????????????????????????????
created=1264244709
2. document=85, weight=2, cat_id=1, member_id=2, created=Sat Jan 23 19:05:09 2010
id=85
title=????????????
cat_id=1
member_id=2
content=??▒????????????▒????????▒????▒?????????????????????????????
created=1264244709
…..这里省略….
20. document=17, weight=1, cat_id=1, member_id=2, created=Sat Jan 23 19:05:09 2010
id=17
title=????????????
cat_id=1
member_id=2
content=??????????????????????????????????????????????????????????
created=1264244709

words:
1. ‘北京’: 995 documents, 999 hits

至此，可以看到，我们已经检索出所有有关“北京”的信息

注意：这里我使用的是putty的客户端，在客户端编码设置的是utf-8，这个是测试的前提条件

4.2 API调用

在本例中，我使用PHP的api来测试，在测试前，先启动sphinx服务进程，并对centos的防火墙做好9312端口的开放

[root@localhost sphinx]# bin/searchd -c etc/sphinx.conf & ### 使sphinx在后台运行
[1] 5759
[root@localhost sphinx]# Sphinx 0.9.9-release (r2117)
Copyright (c) 2001-2009, Andrew Aksyonoff

using config file ‘etc/sphinx.conf’…
listening on all interfaces, port=9312

[1]+ Done bin/searchd -c etc/sphinx.conf

php测试代码：

<?php
header(‘Content-type:text/html;charset=utf-8′);
?><form name=”form1″ method=”get” action=””>
<label>
<input style=”width:400px;” type=”text” name=”keyword”>
</label>
<label>
<input type=”submit” name=”Submit” value=”sphinx搜索”>
</label>
</form>

<?php
$keyword = $_GET[‘keyword’];
if (trim($keyword)==”) {
die(‘请输入关键词’);
}
else {
echo ‘关键词是：’.$keyword;
}

require “sphinxapi.php”;
$cl = new SphinxClient();
$cl->SetServer(’192.168.1.150′, 9312); //注意这里的主机
#$cl->SetMatchMode(SPH_MATCH_EXTENDED); //使用多字段模式
//dump($cl);
$index=”article”;
$res = $cl->Query($keyword, $index);
$err = $cl->GetLastError();
dump($res);
function dump($var)
{
echo ‘<pre>’;
var_dump($var);
echo ‘</pre>’;
}
?>

检索“北京”dump后的结果是如下：

array(10) {
  ["error"]=>
  string(0) ""
  ["warning"]=>
  string(0) ""
  ["status"]=>
  int(0)
  ["fields"]=>
  array(2) {
    [0]=>
    string(5) "title"
    [1]=>
    string(7) "content"
  }
  ["attrs"]=>
  array(3) {
    ["cat_id"]=>
    int(1)
    ["member_id"]=>
    int(1)
    ["created"]=>
    int(2)
  }
  ["matches"]=>
  array(20) {
    [76]=>
    array(2) {
      ["weight"]=>
      string(1) "2"
      ["attrs"]=>
      array(3) {
        ["cat_id"]=>
        string(1) "1"
        ["member_id"]=>
        string(1) "2"
        ["created"]=>
        string(10) "1264244709"
      }
    }
  .....这里省略.....
    [17]=>
    array(2) {
      ["weight"]=>
      string(1) "1"
      ["attrs"]=>
      array(3) {
        ["cat_id"]=>
        string(1) "1"
        ["member_id"]=>
        string(1) "2"
        ["created"]=>
        string(10) "1264244709"
      }
    }
  }
  ["total"]=>
  string(3) "995"
  ["total_found"]=>
  string(3) "995"
  ["time"]=>
  string(5) "0.008"
  ["words"]=>
  array(1) {
    ["北京"]=>
    array(2) {
      ["docs"]=>
      string(3) "995"
      ["hits"]=>
      string(3) "999"
    }
  }
}

至此PHP已可调用出结果！

sphinx搜索(select)逻辑

用输入的查询词在索引文件中挨个进行比较，找到满足关系的文档的过程，并读出文档，给每个文件打分，最后打分完成后进行排序，随后获取到排序后的文档列表的过程。

sphinx搜索过程包括以下步骤

1) 搜收用户输入，并存储，存储格式CsphString，字符串形式，例如select id,weight() ,list_namefrom LISTING wherematch(‘金’)；

2) 解析用户输入，解析完成后每条语句以SqlStmt_t格式存储

下面对SqlStmt_t作出简要分析

3) SqlStmt_t结构成员CsphQuery，此类存储着查询所需的所有信息

示意图如下，全部成员见类图，下图只给出主成员

4) 根据SqlStmt_t结构中命令动词，来匹配不同的程序分支，这里只分析select流程

5) pLocalSorter =sphCreateQueue( tQueueSettings );创建优先级队列，用于对结果排序，默认以weight排序，weight越大在队列中的优先级越高，按照优先级依次出队就完成了排序

6) 得到ram chunk 和disk chunk的指针，创建分词器

7) 对搜索字符串进行分词，分词结束后语法树逻辑结构如下

8) 创建ranker

9) 通过查找hash表，获得分词和DocID关系结构图

分词和DocId的结构图

获得每个分词DocID所占连续内存入口结构图

在hash表ExtQwordsHash_t中ExtQword_t是Key与入口地址是一对一的关系

获得DocID过程

a) 由分词搜索ram chunk中的hash表，得结构ExtQword_t

b) 结构中存储着每个分词DocID的数目

c) 通ExtQword_t可获得每个分词DocID内存所对应的入口地址

d) 分词的DocID在内存中占着连续的内存空间，这样就可以从内存中直接读出所有的DocID 即可

e) 过滤掉KILLlist中的DocID

f) search RAM chunk，给每个DocID安装DocInfo信息，给每条DocID打分

下面是如何查找属性信息，这里只是找到这条文档的属性在RtSegment_t中的指针，用于属性过滤，以下是docinfo的内存存储结构


struct RtSegment_t : ISphNoncopyable

{


CSphTightVector<CSphRowitem> m_dRows; ///<row data

CSphTightVector<BYTE> m_dStrings; ///< strings storage

CSphTightVector<DWORD> m_dMvas; ///<MVAs storage

}

通过二分查找，找到这条文档在m_dRows的位置，就可获得这条文件档属性在m_dStrings和m_dMvas的指针和位移,然后进行属性过滤

10) 把结果存储在ISphMatchSorter中，在multiQuery函中完成对Ram chunk 、Disk chunk的搜索

11) 把结果存储到SearchHandler_c的成员，m_dResults中，同时释放ISphMatchSorter结构内存，在RunLocalSearches中完成结果集的转存

搜索Diskchunk的过程

搜索Disk chunk过程与内存大致相同，多了一步读文件,关于索引文件(spa,spd,…)的处理方法在第三部分讲解

权重算法详解

权重因子

1)Hits

举例说明

insert into LISTING(id,rtf_list_name) values(-99, ‘金龙鱼金龙鱼特香纯正花生油5L”);

insert into LISTING(id,rtf_list_name, rtf_channel) values(-98, ‘金龙鱼金龙鱼特香纯正花生油5L’,’金龙鱼大小龙鱼’);

用如下 selecl id,weight from LISTING where (‘龙鱼’);show meta;

此时，

龙鱼，hits:6

－99，uMatchHits：2

－98，uMatchHits：4

Fields, 代表每个分词所对应的field的字段，索引建立时确定，举例说明，假设索引字段编码如下，sphinx用一个32无符号整数对每个索引字段编码

insert into LISTING(id,rtf_list_name, rtf_standard_channel) values(-98, ‘金龙鱼特香纯正花生油5L’, ‘金龙鱼特香纯正花生油5L’)

这条文档的m_uDocFields为6,对应分词,龙鱼

pDoc->m_uDocFields

tDoc.m_uDocFields =m_pQword->m_dQwordFields.GetMask32() & m_dQueriedFields.GetMask32();

m_iWeight = m_iWeight + uRank*SPH_BM25_SCALE其中，m_iWeight是BM25算法得到，uRank相似度

1、用户可以为每个field指定weight,格式optionfield_weights=(rtf_list_name=10)，默认为1，这样可以加大或减小每个field所占的权重比例

2、每个分词的IDF计算方法, IDF是指在整个文档集中的反向文档频率。常见词（如“the” or “to”等）的IDF值小，罕见词的IDF值大，当一个关键词只在一个文档中出现时，达到峰值IDF＝1，

而当关键词在每个索引文档都出现时，IDF＝－1

float fLogTotal = logf (float ( 1+iTotalClamped ) );

fIDF = logf (float (iTotalClamped-iTermDocs+1 ) / float ( iTermDocs ) ) /( 2*fLogTotal );

fIDF /= iQwords;

参数说明：

1) iTotalClamped索引中总的DOcID数目，就是select count(*) 的输出结果

2) iTermDocs每个分词对应的DocID数目，对金，为docs[0],对龙鱼，为docs[1]

3) iQwords，一个查询语句中，分词的个数，对下面的例子是2

举例：

select id,weight() ,list_name from LISTING where match(‘金龙鱼’) limit 44;show meta;

输出如下：

每条文档的uRank,,相似度计算方法：


struct ExtDoc_t

{

SphDocID_t m_uDocid;

CSphRowitem * m_pDocinfo; ///< for inline storage only

SphOffset_t m_uHitlistOffset;

DWORD m_uDocFields;

float m_fTFIDF;

};

for ( inti=0; i<iWeights; i++ )

if( pDoc->m_uDocFields & (1<<i) )

{

uRank += m_pWeights[i];

}

参数说明：

1) iWeights总的field数目

2) m_pWeights[i]用户给每个field指定的权重值，默认是1

3) pDoc->m_uDocFields

tDoc.m_uDocFields =m_pQword->m_dQwordFields.GetMask32() & m_dQueriedFields.GetMask32();

dQueriedFields，查询时指定的字段，例如match(‘@rtf_list_name 金龙鱼’)，值是4，如果没有指定field字段32位全是1

BM25参数，tDoc.m_fTFIDF每个分词对应多个文档，每个文档对应一个此参数

tDoc.m_fTFIDF= float(m_pQword->m_uMatchHits)/ float(m_pQword->m_uMatchHits+SPH_BM25_K1) * m_fIDF;

参数说明：

m_pQword->m_uMatchHits每个文档对应hit数目

SPH_BM25_K1＝1.2f

m_fIDF为上面计算出的值

m_iWeight,为临时变量，m_iWeight = (int)((m_fTFIDF+0.5f)*SPH_BM25_SCALE )

参数说明：SPH_BM25_SCALE=1000

最终权重

m_iWeight = m_iWeight + uRank*SPH_BM25_SCALE

uRank最小为1，由此可能权重一定大于1000

多关键词处理方法

AND:将两个孩子节点获取到的doc合并起来，过滤掉docId不相同的,权重相加，代码如下

tDoc.m_uDocFields = pCur0->m_uDocFields| pCur1->m_uDocFields;

tDoc.m_fTFIDF = pCur0->m_fTFIDF + pCur1->m_fTFIDF;

OR:依次取前两个结点，如果DocID相同，权重相加，代码如下

[cpp] view plain copy

<code class=”language-cpp”><span style=”font-size:14px;”>m_dDocs[iDoc].m_uDocFields =pCur0->m_uDocFields | pCur1->m_uDocFields;
m_dDocs[iDoc].m_fTFIDF = pCur0->m_fTFIDF+ pCur1->m_fTFIDF;</span></code>

附录

这是本人对sphinx写的入门手册，也为自己存档使用。为写本文，特重新安装了一遍Sphinx，并新建mysql表加入1000条记录，动手重复了一下所有
过程。如有错误或疑问请到以下地址反馈，谢谢！
欢迎到sphinx中文站(www.sphinxsearch.org)讨论sphinx的相关问题，交流你我的思想！

欢迎查阅我所写的Sphinx的其他相关文章：sphinx中文分词，sphinx高级应用，Sphinx FAQ，Sphinx服务架构

参考文章：

Sphinx速成指南
 用php构建自定义搜索引擎
 Sphinx中文手册
1. Nutch=Hadoop+Lucene+Spider
2. lucene统计关键词匹配次数
3. lucene学习笔记九, 关于结果分页
4. 在DotLucene/Lucene.net中, 增加自己的中文分词Analyzer
5. lucene结构说明中文文档
6. Lucene 排序及多字段查找
7. Using Lucene 3
8. lucene大数据量的动态更新问题解决方式. 用内存
9. 当前几个主要的Lucene中文分词器的比较
10. Lucene删除索引DeleteDocuments的注意事项
11. lucene.net索引文件存储简析
12. Lucene的分析器
13. PyLucene , python版本的lucene
14. Lucene的查询语法！
15. Lucene-2.2.0 源代码阅读学习(16)