当前位置: 365bet亚洲官方投注 > 编程知识 > 正文

安装说明,Windows本地安装及PHP使用Sphinxapi示例

时间:2019-12-22 07:16来源:编程知识
本文实例讲述了PHP+MySQL+sphinx+scws实现全文检索功能。分享给大家供大家参考,具体如下: 最近一个项目需要实现这样一个需求:mysql数据库一张表中存了百万张菜品图片,需要根据菜品名

本文实例讲述了PHP+MySQL+sphinx+scws实现全文检索功能。分享给大家供大家参考,具体如下:

最近一个项目需要实现这样一个需求:mysql数据库一张表中存了百万张菜品图片,需要根据菜品名称或描述,模糊匹配出符合条件的菜品图片,并展示出来

scws 安装

我的个人环境是PHP7.1+MariaDB10.1.23

select * from table_name where column like '%鱼香肉丝%';

获取源码并解压到当前目录

下载安装资源包

如果像上面那样,直接使用mysql like查询的话,会进行全表扫描,不走索引,大大的影响查询效率,所以开始学习使用Sphinx全文搜索引擎,下面记录下第一次配置使用的过程,以及过程中遇到的问题和疑问,望指正.

$ wget -q -O - | tar xjf -

sphinx地址

1. 下载sphinx源码压缩包点击下载

按照自己的需求,下载对应的版本,我这里下载的是Windows x64 binaries 3.1.1 版本

编译安装

2. 下载后的sphinx源码目录

图片 1sphinx源码目录结构

$ cd scws-1.2.3

PHP的sphinx扩展下载

3.配置文件

打开etc目录,里面有三个文件,example,sql是创建测试表的脚本,我们稍后会用到,sphinx.conf.dist是完整版默认配置,这里我选择了sphinx-min.conf.dist简化版,暂时可以满足需求,复制一份到bin目录下,并且重命名为sphinx.conf.

图片 2etc目录

$ ./configure --prefix=/usr/local/scws

4. sphinx.config文件配置

配置文件的几个组成部分:

  • source 数据源,这里配置你要进行全文检索的数据的来源
  • index 索引,从上面的数据源处构建索引,相当于字典检索,要有整本字典内容后才会有索引
  • indexer 构建索引,需要重新构建索引时,其实就是调用indexer这个命令
  • searchd 提供搜索查询的服务,后台运行
source src1 ## src1为数据源命名的名称,可以根据数据源的属性更改{ type = mysql ## 数据源,本项目使用mysql sql_host = localhost ## 数据库服务器,这里因为是测试,使用的是本地数据库 sql_user = root # 数据库用户名 sql_pass = root # 数据库密码 sql_db = hongbao ## 数据库名称,替换成你自己的数据库名称 sql_port = 3306 ## 数据库端口,默认3306 sql_query_pre = SET NAMES utf8 ## 如果你的数据库不是uft8编码的,注释掉本行 sql_query =  ## 主查询,查询出所有在检索范围的数据 SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content  FROM documents sql_attr_uint = group_id ## 属性 sql_attr_timestamp = date_added ## 属性,可用来排序}index test1 ## 索引名称,自行命名{ source = src1 ## 基于这个数据源构建索引 path = D:/sphinx/data/ ## 存放索引的目录,自己创建 charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F ## 指定utf-8的编码表 mlock = 0 morphology = none ## 词形处理器,如果检索中文用不到,dogs<==>dog min_word_len = 1 ## 最小索引词长度,小于这个长度的词不会被索引 ngram_len = 1 ## 简单分词,只支持0和1,如果要搜索中文,请指定为1 ngram_chars = U+3000..U+2FA1F ## 需要分词的字符,如果要搜索中文,请放开这行 html_strip = 0 ## html标记清理,是否从输出全文数据中去除HTML标记}indexer{ # memory limit, in bytes, kiloytes  or megabytes  # optional, default is 128M, max is 2047M, recommended is 256M to 1024M mem_limit = 128M ## 建立索引的时候,索引内存限制}searchd{ listen = 9312 ## 监听端口 listen = 9306:mysql41 log = D:/sphinx/log/searchd.log ## 监听日志 query_log = D:/sphinx/log/query.log ## 查询日志 pid_file = D:/sphinx/log/searchd.pid ## ## 进程id文件 read_timeout = 5 ## 客户端读超时时间 client_timeout = 300 ## 客户端持久连接超时时间,即客户端读一次以后,持久连接,然后再读一次,中间这个持久连接的时间 max_children = 30 ## 并行执行搜索的数目 persistent_connections_limit = 30 preopen_indexes = 1 ## 索引预开启,是否强制重新打开所有索引文件 unlink_old = 1 ## 索引轮换成功之后,是否删除以.old为扩展名的索引拷贝 max_packet_size = 8M ## 网络通讯时允许的最大的包的大小 max_filters = 256 ## 每次查询允许设置的过滤器的最大个数 max_filter_values = 4096 ## 单个过滤器允许的值的最大个数 max_batch_queries = 32 ## 每次批量查询的查询数限制 workers = threads # for RT to work 多处理模式。 可选项;可用值为none、fork、prefork,以及threads。 默认在Unix类系统为form,Windows系统为threads。}

注:配置文件更改完成之后,回到根目录新建配置文件中使用到的data和log两个目录

导入源码里提供的示例数据,执行etc目录下的example.sql脚本:

图片 3导入测试数据

或者使用mysql图形处理界面工具:

图片 4导入测试数据.png

$ make & make install

SCWS 下载地址

5. 根据sphinx.conf创建索引
## 构建索引语法:indexer -c 配置文件 索引名字
  • 打开windows 命令提示行工具,进入到sphinx/bin目录下

图片 5根据sphinx.conf创建索引

  • 启动sphinx检索服务,后台常驻

图片 6启动

  • 查看索引创建情况重新打开一个命令行窗口,

图片 7索引建立情况

#试试执行 scws-cli 文件(检查有没有安装成功)

6. Sphinxapi.php使用(或者安装php扩展)

sphinx提供了各种语言的代码,php使用sphinx,只需要引入sphinxapi.php,打开根目录下的api目录,将sphinxapi.php文件复制到你的项目目录下,方便调用

<?php/** * Demo.php * Create on 2018/8/29 10:42 * Create by liu * Administrator */class Demo extends CI_Controller{ private $sphinx; public function __construct() { parent::__construct(); require_once APPPATH . 'libraries/Sphinxapi.php'; $this->sphinx = new SphinxClient(); } public function sphinx() { //设置操作哪个sphinx服务器 $this->sphinx->setServer('localhost',9312); $keyword = "银行";//要搜索的关键字 $index = 'bank';//索引名称 //查询出关键字所在的主键id $this->sphinx->_limit = 2000; $res = $this->sphinx->Query($keyword,$index); echo '<pre>'; if (isset($res['matches'])){ $ids = array_keys($res['matches']); $ids = implode; }else{ print_r; return; } //获取匹配到的主键id $mysql_con = mysqli_connect('localhost','root','','hongbao');//本地数据库 mysqli_query($mysql_con,'set name utf8'); mysqli_query($mysql_con,'use hongbao'); $sql = "select * from bank where id in "; $res = mysqli_query($mysql_con,$sql); while ($row = mysqli_fetch_assoc{ $data[] = $row; } foreach ($data as $key => $v){ $v = str_replace($keyword,"<font color='red'>{$keyword}</font>",$v); $data[$key] = $v; } print_r; }}

代码运行结果

图片 8代码运行结果

$ /usr/local/scws/bin/scws -h

SCWS 词库下载地址

# 下载解压词库

cd /usr/local/scws/etc

安装过程

$ wget -q -O - | tar xjf -

因为我的是PHP 7 版本,安装sphinx的时候遇到点问题

$ wget -q -O -

安装sphinx

| tar xjf

安装PHP扩展

#查看php安装路径

$ whereis php

# 进入到源码目录的phpext

$ cd phpext

# 执行phpize

$ phpize

# 如果出现错误

# Can't find PHP headers in /usr/include/php

# The php-devel package is required for use of this command.

# 则执行 yum install php-devel

# 执行

$ ./configure --with-scws=/usr/local

# 若有错误

# configure: error: Cannot find php-config. Please use --with-php-config=PAT

# 则带上参数 --with-php-config="php安装目录"/bin/php-config

# 编译安装

$ make & make install

# 返回如下信息则安装成功

Installing shared extensions:    /opt/remi/php55/root/usr/lib64/php/modules/

# 在php.ini中加入扩展

# 注意请检查 php.ini 中的 extension_dir

[scws]

extension = scws.so

scws.default.charset = utf8

scws.default.fpath = /usr/local/scws/etc

# scws添加自定义词库

# 在scws安装目录下的etc下新建txt文件(utf8格式),scws中add_dict到该文件的具体路径 eg:

$so = scws_new();

// scws路径和规则

$so->set_dict(ini_get("scws.default.fpath").'/dict.utf8.xdb');

$so->add_dict(ini_get("scws.default.fpath").'/dict_user.txt', SCWS_XDICT_TXT);  //dict_user.txt为个人自定义词库

$so->set_rule(ini_get("scws.default.fpath").'/rules.utf8.ini');

[root@MevHost sphinxb]# mkdir -p /usr/local/src/sphinx[root@MevHost sphinxb]# cd /usr/local/src/sphinx [root@MevHost sphinxb]# tar -xf sphinx-2.2.11-release.tar.gz [root@MevHost sphinxb]# cd sphinx-2.2.11-release// 这里是指定安装的目录,还有引用mysql,[root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2 --with-mysql=/usr/local/mariadb/[root@MevHost sphinxb]# make && make install

安装sphinx客户端

这个要安装上,不然安装PHP安装sphinx扩展时会出现报错

[root@MevHost sphinxb]# cd /usr/local/src/sphinx/sphinx-2.2.11-release/api/libsphinxclient //sphinx-2.2.11-release目录下 [root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2/libsphinxclient [root@MevHost sphinxb]# make && make install 

为PHP安装sphinx扩展

[root@MevHost sphinxb]# cd /usr/local/src/sphinx[root@MevHost sphinxb]# tar zxvf sphinx-1.3.1.tgz [root@MevHost sphinxb]# cd sphinx-1.3.1 [root@MevHost sphinxb]# phpize [root@MevHost sphinxb]# ./configure --with-sphinx=/usr/local/sphinx2/libsphinxclient --with-php-config=/usr/local/php/bin/php-config [root@MevHost sphinxb]# make && make install

成功后再 php.ini 添加:

extension=sphinx.so

PHP7版本sphinx扩展下载

安装scws

[root@MevHost sphinxb]# tar -jxvf scws-1.2.3.tar.bz2[root@MevHost sphinxb]# mkdir /usr/local/scws [root@MevHost sphinxb]# cd scws-1.2.3 [root@MevHost sphinxb]# ./configure --prefix=/usr/local/scws/ [root@MevHost sphinxb]# make && make install

为PHP安装scws扩展

[root@MevHost sphinxb]# cd /usr/local/src/sphinx/scws-1.2.3/phpext [root@MevHost sphinxb]# phpize [root@MevHost sphinxb]# ./configure --with-php-config=/usr/local/php/bin/php-config[root@MevHost sphinxb]# make && make install

在php.ini 加入

extension = scws.soscws.default.charset=utf-8scws.default.fpath = /usr/local/scws/etc

安装scws词库

[root@MevHost sphinxb]# tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/#www为php-fpm运行用户[root@MevHost sphinxb]# chown www:www /usr/local/scws/etc/dict.utf8.xdb

创建MySQL数据源

/*Navicat MySQL Data TransferSource Database : mtestTarget Server Type : MYSQLTarget Server Version : 50505File Encoding : 65001Date: 2017-12-10 17:47:58*/SET FOREIGN_KEY_CHECKS=0;-- ------------------------------ Table structure for userinfo-- ----------------------------DROP TABLE IF EXISTS `userinfo`;CREATE TABLE `userinfo`  unsigned NOT NULL AUTO_INCREMENT, `userid` int unsigned NOT NULL DEFAULT '0', `addtime` datetime NOT NULL, `post` varchar NOT NULL DEFAULT '', `summary` text NOT NULL, PRIMARY KEY  ENGINE=InnoDB AUTO_INCREMENT=21 DEFAULT CHARSET=utf8;-- ------------------------------ Records of userinfo-- ----------------------------INSERT INTO `userinfo` VALUES ('17', '1', '2017-12-10 00:24:54', '在CentOS7中使用Sendmail通', 'sendmail');INSERT INTO `userinfo` VALUES ('18', '2', '2017-12-10 10:24:54', '彻底理解PHP的SESSION机制', 'session');INSERT INTO `userinfo` VALUES ('19', '3', '2017-12-10 12:24:54', '手把手编写自己的PHPMVC框架实例教程', 'mvc');INSERT INTO `userinfo` VALUES ('20', '4', '2017-12-10 00:24:54', 'php获取今日、昨日、上周、本月的起始时', '时间');-- ------------------------------ Table structure for users-- ----------------------------DROP TABLE IF EXISTS `users`;CREATE TABLE `users`  unsigned NOT NULL AUTO_INCREMENT, `username` varchar NOT NULL DEFAULT '', PRIMARY KEY  ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8;-- ------------------------------ Records of users-- ----------------------------INSERT INTO `users` VALUES ;INSERT INTO `users` VALUES ;INSERT INTO `users` VALUES ;INSERT INTO `users` VALUES ;

配置sphinx

配置文件在/usr/local/sphinx2/etc

cp sphinx-min.conf.dist sphinx.conf

source users{ type = mysql sql_host = 127.0.0.1 sql_user = root sql_pass = 123456 sql_db = mtest sql_port = 3306 # optional, default is 3306 sql_query_pre = SET NAMES utf8 sql_query_pre = SET SESSION query_cache_type=OFF sql_query = SELECT a.id, a.userid,b.username, UNIX_TIMESTAMP AS addtime, a.post, a.summary FROM userinfo a left join users b on a.userid = b.id sql_attr_uint = userid sql_field_string = username sql_field_string = post sql_attr_timestamp = addtime sql_ranged_throttle = 0 #sql_attr_uint = group_id #sql_attr_timestamp = date_added #sql_ranged_throttle = 0}source src1throttled : users { sql_ranged_throttle = 100}index users { source = users path = /usr/local/sphinx2/var/data/users docinfo = extern mlock = 0 morphology = none min_word_len = 1 html_strip = 1 charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D, U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159, U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175, U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF ngram_len = 1 ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF }common{}indexer{ mem_limit = 128M}searchd{ #php listen = 9312 #mysql listen = 9306:mysql41 log = /usr/local/sphinx2/var/log/searchd.log query_log = /usr/local/sphinx2/var/log/query.log query_log_format = sphinxql read_timeout = 5 client_timeout = 300 max_children = 30 persistent_connections_limit = 30 pid_file = /usr/local/sphinx2/var/log/searchd.pid seamless_rotate = 1 preopen_indexes = 1 unlink_old = 1 mva_updates_pool = 1M max_packet_size = 8M max_filters = 256 max_filter_values = 4096 max_batch_queries = 32 workers = threads # for RT to work}

启动sphinx

[root@MevHost ~]# pkill searchd[root@MevHost ~]# /usr/local/sphinx2/bin/indexer --config /usr/local/sphinx2/etc/sphinx.conf --all [root@MevHost ~]# /usr/local/sphinx2/bin/searchd --config /usr/local/sphinx2/etc/sphinx.conf

"Oops! It seems that sphinx was built with wrong endianess either reconfigure and rebuild, defining ac_cv_c_bigendian=no in the environment of./configure script,either ensure that '#define USE_LITTLE_ENDIAN = 1' in config/config.h"

我是直接把sphinx下面的config/config.h 改成了他提示的这个 #define USE_LITTLE_ENDIAN = 1,之后make的,

接下来的这段是我们的PHP代码了

 Document set_charset;//默认词库$so->add_dict(ini_get . '/dict.utf8.xdb');//自定义词库// $so->add_dict('./dd.txt',SCWS_XDICT_TXT);//默认规则$so->set_rule(ini_get . '/rules.utf8.ini');//设定分词返回结果时是否去除一些特殊的标点符号$so->set_ignore;//设定分词返回结果时是否复式分割,如“中国人”返回“中国+人+中国人”三个词。// 按位异或的 1 | 2 | 4 | 8 分别表示: 短词 | 二元 | 主要单字 | 所有单字//1,2,4,8 分别对应常量 SCWS_MULTI_SHORT SCWS_MULTI_DUALITY SCWS_MULTI_ZMAIN SCWS_MULTI_ZALL$so->set_multi;//设定是否将闲散文字自动以二字分词法聚合$so->set_duality;//设定搜索词$so->send_text;$words_array = $so->get_result();$words = "";foreach{ $words = $words.'|';}//加入全词#$words = ''.$words;$words = trim;$so->close();echo '输入:'.$key.''."rn";echo '分词:'.$words.''."rn";//========================================搜索$sc = new SphinxClient();$sc->SetServer;#$sc->SetMatchMode;$sc->SetMatchMode;$sc->SetArrayResult;$res = $sc->Query;echo "";echo "";print_r;$e_time = microtime;$time = $e_time - $b_time;echo $time;}exit;?>

sphinx 配置文件解析

source:数据源,数据是从什么地方来的。 index:索引,当有数据源之后,从数据源处构建索引。索引实际上就是相当于一个字典检索。有了整本字典内容以后,才会有字典检索。 searchd:提供搜索查询服务。它一般是以deamon的形式运行在后台的。 indexer:构建索引的服务。当要重新构建索引的时候,就是调用indexer这个命令。 attr:属性,属性是存在索引中的,它不进行全文索引,但是可以用于过滤和排序。

sphinx.conf

## 数据源src1source src1{ ## 说明数据源的类型。数据源的类型可以是:mysql,pgsql,mssql,xmlpipe,odbc,python ## 有人会奇怪,python是一种语言怎么可以成为数据源呢? ## python作为一种语言,可以操作任意其他的数据来源来获取数据,更多数据请看:(http://www.coreseek.cn/products-install/python/) type = mysql ## 下面是sql数据库特有的端口,用户名,密码,数据库名等。 sql_host = localhost sql_user = test sql_pass = sql_db = test sql_port = 3306 ## 如果是使用unix sock连接可以使用这个。 # sql_sock = /tmp/mysql.sock ## indexer和mysql之间的交互,需要考虑到效率和安全性。 ## 比如考虑到效率,他们两者之间的交互需要使用压缩协议;考虑到安全,他们两者之间的传输需要使用ssl ## 那么这个参数就代表这个意思,0/32/2048/32768 无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。 # mysql_connect_flags = 32 ## 当mysql_connect_flags设置为2048的时候,下面几个就代表ssl连接所需要使用的几个参数。 # mysql_ssl_cert = /etc/ssl/client-cert.pem # mysql_ssl_key = /etc/ssl/client-key.pem # mysql_ssl_ca = /etc/ssl/cacert.pem ## mssql特有,是否使用windows登陆 # mssql_winauth = 1 ## mssql特有,是使用unicode还是单字节数据。 # mssql_unicode = 1 # request Unicode data from server ## odbc的dsn串 # odbc_dsn = DBQ=C:data;DefaultDir=C:data;Driver={Microsoft Text Driver }; ## sql某一列的缓冲大小,一般是针对字符串来说的。 ## 为什么要有这么一种缓冲呢? ## 有的字符串,虽然长度很长,但是实际上并没有使用那么长的字符,所以在Sphinx并不会收录所有的字符,而是给每个属性一个缓存作为长度限制。 ## 默认情况下非字符类型的属性是1KB,字符类型的属性是1MB。 ## 而如果想要配置这个buffer的话,就可以在这里进行配置了。 # sql_column_buffers = content=12M, comments=1M ## indexer的sql执行前需要执行的操作。 # sql_query_pre = SET NAMES utf8 # sql_query_pre = SET SESSION query_cache_type=OFF ## indexer的sql执行语句 sql_query =  SELECT id, group_id, UNIX_TIMESTAMP AS date_added, title, content  FROM documents ## 有的时候有多个表,我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。 ## 而这个join操作可能非常慢,导致建立索引的时候特别慢,那么这个时候,就可以考虑在sphinx端进行join操作了。 ## sql_joined_field是增加一个字段,这个字段是从其他表查询中查询出来的。 ## 这里封号后面的查询语句是有要求的,如果是query,则返回id和查询字段,如果是payload-query,则返回id,查询字段和权重。 ## 并且这里的后一个查询需要按照id进行升序排列。 # sql_joined_field = tags from query; SELECT docid, CONCAT FROM tags ORDER BY docid ASC # sql_joined_field = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC ## 外部文件字段,意思就是一个表中,有一个字段存的是外部文件地址,但是实际的字段内容在文件中。比如这个字段叫做content_file_path。 ## 当indexer建立索引的时候,查到这个字段,就读取这个文件地址,然后加载,并进行分词和索引建立等操作。 # sql_file_field = content_file_path ## 当数据源数据太大的时候,一个sql语句查询下来往往很有可能锁表等操作。 ## 那么我么就可以使用多次查询,那么这个多次查询就需要有个范围和步长,sql_query_range和sql_range_step就是做这个使用的。 ## 获取最大和最小的id,然后根据步长来获取数据。比如下面的例子,如果有4500条数据,这个表建立索引的时候就会进行5次sql查询。 ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。 # sql_query_range = SELECT MIN FROM documents # sql_range_step = 1000 # sql_ranged_throttle = 0 ## 下面都是些不同属性的数据了 ## 先要了解属性的概念:属性是存在索引中的,它不进行全文索引,但是可以用于过滤和排序。 ## uint无符号整型属性 sql_attr_uint = group_id ## bool属性 # sql_attr_bool = is_deleted ## 长整型属性 # sql_attr_bigint = my_bigint_id ## 时间戳属性,经常被用于做排序 sql_attr_timestamp = date_added ## 字符串排序属性。一般我们按照字符串排序的话,我们会将这个字符串存下来进入到索引中,然后在查询的时候比较索引中得字符大小进行排序。 ## 但是这个时候索引就会很大,于是我们就想到了一个方法,我们在建立索引的时候,先将字符串值从数据库中取出,暂存,排序。 ## 然后给排序后的数组分配一个序号,然后在建立索引的时候,就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。 ## 这,就是这个字段的意义。 # sql_attr_str2ordinal = author_name ## 浮点数属性,经常在查询地理经纬度的时候会用到。 # sql_attr_float = lat_radians # sql_attr_float = long_radians ## 多值属性 ## 试想一下,有一个文章系统,每篇文章都有多个标签,这个文章就叫做多值属性。 ## 我要对某个标签进行查询过滤,那么在建立查询的时候就应该把这个标签的值放入到索引中。 ## 这个字段,sql_attr_multi就是用来做这个事情的。 # sql_attr_multi = uint tag from query; SELECT docid, tagid FROM tags # sql_attr_multi = uint tag from ranged-query;  # SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end;  # SELECT MIN FROM tags ## 字符串属性。 # sql_attr_string = stitle ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段 # sql_attr_str2wordcount = stitle ## 字符串字段,可全文搜索,可返回原始文本信息。 # sql_field_string = author ## 文档词汇数记录字段,可全文搜索,可返回原始信息 # sql_field_str2wordcount = title ## 取后查询,在sql_query执行后立即操作。 ## 它和sql_query_post_index的区别就是执行时间不同 ## sql_query_post是在sql_query执行后执行,而sql_query_post_index是在索引建立完成后才执行。 ## 所以如果要记录最后索引执行时间,那么应该在sql_query_post_index中执行。 # sql_query_post = ## 参考sql_query_post的说明。 # sql_query_post_index = REPLACE INTO counters   # VALUES ( 'max_indexed_id', $maxid ) ## 命令行获取信息查询。 ## 什么意思呢? ## 我们进行索引一般只会返回主键id,而不会返回表中的所有字段。 ## 但是在调试的时候,我们一般需要返回表中的字段,那这个时候,就需要使用sql_query_info。 ## 同时这个字段只在控制台有效,在api中是无效的。 sql_query_info = SELECT * FROM documents WHERE id=$id ## 比如有两个索引,一个索引比较旧,一个索引比较新,那么旧索引中就会有数据是旧的。 ## 当我要对两个索引进行搜索的时候,哪些数据要按照新的索引来进行查询呢。 ## 这个时候就使用到了这个字段了。 ## 这里的例子(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist)给的非常清晰了。 # sql_query_killlist = SELECT id FROM documents WHERE edited>=@last_reindex ## 下面几个压缩解压的配置都是为了一个目的:让索引重建的时候不要影响数据库的性能表现。 ## SQL数据源解压字段设置 # unpack_zlib = zlib_column ## MySQL数据源解压字段设置 # unpack_mysqlcompress = compressed_column # unpack_mysqlcompress = compressed_column_2 ## MySQL数据源解压缓冲区设置 # unpack_mysqlcompress_maxsize = 16M ## xmlpipe的数据源就是一个xml文档 # type = xmlpipe ## 读取数据源的命令 # xmlpipe_command = cat /home/yejianfeng/instance/coreseek/var/test.xml ## 字段 # xmlpipe_field = subject # xmlpipe_field = content ## 属性 # xmlpipe_attr_timestamp = published # xmlpipe_attr_uint = author_id ## UTF-8修复设置 ## 只适用xmlpipe2数据源,数据源中有可能有非utf-8的字符,这个时候解析就有可能出现问题 ## 如果设置了这个字段,非utf-8序列就会全部被替换为空格。 # xmlpipe_fixup_utf8 = 1}## sphinx的source是有继承这么一种属性的,意思就是除了父source之外,这个source还有这个特性source src1throttled : src1{ sql_ranged_throttle = 100}## 索引test1index test1{ ## 索引类型,包括有plain,distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。 # type = plain ## 索引数据源 source = src1 ## 索引文件存放路径 path = /home/yejianfeng/instance/coreseek/var/data/test1 ## 文档信息的存储模式,包括有none,extern,inline。默认是extern。 ## docinfo指的就是数据的所有属性构成的一个集合。 ## 首先文档id是存储在一个文件中的 ## 当使用inline的时候,文档的属性和文件的id都是存放在spa中的,所以进行查询过滤的时候,不需要进行额外操作。 ## 当使用extern的时候,文档的属性是存放在另外一个文件中的,但是当启动searchd的时候,会把这个文件加载到内存中。 ## extern就意味着每次做查询过滤的时候,除了查找文档id之外,还需要去内存中根据属性进行过滤。 ## 但是即使这样,extern由于文件大小小,效率也不低。所以不是有特殊要求,一般都是使用extern docinfo = extern ## 缓冲内存锁定。 ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问,则它会被交换到磁盘上。 ## 设置了mlock就不会出现这个问题,这部分数据会一直存放在内存中的。 mlock = 0 ## 词形处理器 ## 词形处理是什么意思呢?比如在英语中,dogs是dog的复数,所以dog是dogs的词干,这两个实际上是同一个词。 ## 所以英语的词形处理器会讲dogs当做dog来进行处理。 morphology = none ## 词形处理有的时候会有问题,比如将gps处理成gp,这个设置可以允许根据词的长度来决定是否要使用词形处理器。 # min_stemming_len = 1 ## 词形处理后是否还要检索原词? # index_exact_words = 1 ## 停止词,停止词是不被索引的词。 # stopwords = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt ## 自定义词形字典 # wordforms = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt ## 词汇特殊处理。 ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如,c++ => cplusplus来处理。 # exceptions = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt ## 最小索引词长度,小于这个长度的词不会被索引。 min_word_len = 1 ## 字符集编码类型,可以为sbcs,utf-8。对于Coreseek,还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5 charset_type = sbcs ## 字符表和大小写转换规则。对于Coreseek,这个字段无效。 # 'sbcs' default value is # charset_table = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF # # 'utf-8' default value is # charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。 # ignore_chars = U+00AD ## 是否启用通配符,默认为0,不启用 # enable_star = 1 ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。 ## 最小前缀索引长度 ## 为什么要有这个配置项呢? ## 首先这个是当启用通配符配置启用的前提下说的,前缀索引使得一个关键词产生了多个索引项,导致索引文件体积和搜索时间增加巨大。 ## 那么我们就有必要限制下前缀索引的前缀长度,比如example,当前缀索引长度设置为5的时候,它只会分解为exampl,example了。 # min_prefix_len = 0 ## 最小索引中缀长度。理解同上。 # min_infix_len = 0 ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。 # prefix_fields = filename # infix_fields = url, domain ## 词汇展开 ## 是否尽可能展开关键字的精确格式或者型号形式 # expand_keywords = 1 ## N-Gram索引的分词技术 ## N-Gram是指不按照词典,而是按照字长来分词,这个主要是针对非英文体系的一些语言来做的 ## 对coreseek来说,这两个配置项可以忽略。 # ngram_len = 1 # ngram_chars = U+3000..U+2FA1F ## 词组边界符列表和步长 ## 哪些字符被看做分隔不同词组的边界。 # phrase_boundary = ., ?, !, U+2026 # horizontal ellipsis # phrase_boundary_step = 100 ## 混合字符列表 # blend_chars = +, &, U+23 # blend_mode = trim_tail, skip_pure ## html标记清理,是否从输出全文数据中去除HTML标记。 html_strip = 0 ## HTML标记属性索引设置。 # html_index_attrs = img=alt,title; a=title; ## 需要清理的html元素 # html_remove_elements = style, script ## searchd是预先打开全部索引还是每次查询再打开索引。 # preopen = 1 ## 字典文件是保持在磁盘上还是将他预先缓冲在内存中。 # ondisk_dict = 1 ## 由于在索引建立的时候,需要建立临时文件和和副本,还有旧的索引 ## 这个时候磁盘使用量会暴增,于是有个方法是临时文件重复利用 ## 这个配置会极大减少建立索引时候的磁盘压力,代价是索引建立速度变慢。 # inplace_enable = 1 # inplace_hit_gap = 0 # preallocated hitlist gap size # inplace_docinfo_gap = 0 # preallocated docinfo gap size # inplace_reloc_factor = 0.1 # relocation buffer size within arena # inplace_write_factor = 0.1 # write buffer size within arena ## 在经过过短的位置后增加位置值 # overshort_step = 1 ## 在经过 停用词 处后增加位置值 # stopword_step = 1 ## 位置忽略词汇列表 # hitless_words = all # hitless_words = hitless.txt ## 是否检测并索引句子和段落边界 # index_sp = 1 ## 字段内需要索引的HTML/XML区域的标签列表 # index_zones = title, h*, th}index test1stemmed : test1{ path = /home/yejianfeng/instance/coreseek/var/data/test1stemmed morphology = stem_en}index dist1{ type = distributed local = test1 local = test1stemmed ## 分布式索引中的远程代理和索引声明 agent = localhost:9313:remote1 agent = localhost:9314:remote2,remote3 # agent = /var/run/searchd.sock:remote4 ## 分布式索引中声明远程黑洞代理 # agent_blackhole = testbox:9312:testindex1,testindex2 ## 远程代理的连接超时时间 agent_connect_timeout = 1000 ## 远程查询超时时间 agent_query_timeout = 3000}index rt{ type = rt path = /home/yejianfeng/instance/coreseek/var/data/rt ## RT索引内存限制 # rt_mem_limit = 512M ## 全文字段定义 rt_field = title rt_field = content ## 无符号整数属性定义 rt_attr_uint = gid ## 各种属性定义 # rt_attr_bigint = guid # rt_attr_float = gpa # rt_attr_timestamp = ts_added # rt_attr_string = author}indexer{ ## 建立索引的时候,索引内存限制 mem_limit = 32M ## 每秒最大I/O操作次数,用于限制I/O操作 # max_iops = 40 ## 最大允许的I/O操作大小,以字节为单位,用于I/O节流 # max_iosize = 1048576 ## 对于XMLLpipe2数据源允许的最大的字段大小,以字节为单位 # max_xmlpipe2_field = 4M ## 写缓冲区的大小,单位是字节 # write_buffer = 1M ## 文件字段可用的最大缓冲区大小,字节为单位 # max_file_field_buffer = 32M}## 搜索服务配置searchd{ # listen = 127.0.0.1 # listen = 192.168.0.1:9312 # listen = 9312 # listen = /var/run/searchd.sock ## 监听端口 listen = 9312 listen = 9306:mysql41 ## 监听日志 log = /home/yejianfeng/instance/coreseek/var/log/searchd.log ## 查询日志 query_log = /home/yejianfeng/instance/coreseek/var/log/query.log ## 客户端读超时时间 read_timeout = 5 ## 客户端持久连接超时时间,即客户端读一次以后,持久连接,然后再读一次。中间这个持久连接的时间。 client_timeout = 300 ## 并行执行搜索的数目 max_children = 30 ## 进程id文件 pid_file = /home/yejianfeng/instance/coreseek/var/log/searchd.pid ## 守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值 max_matches = 1000 ## 无缝轮转。防止 searchd 轮换在需要预取大量数据的索引时停止响应 ## 当进行索引轮换的时候,可能需要消耗大量的时间在轮换索引上。 ## 但是启动了无缝轮转,就以消耗内存为代价减少轮转的时间 seamless_rotate = 1 ## 索引预开启,是否强制重新打开所有索引文件 preopen_indexes = 1 ## 索引轮换成功之后,是否删除以.old为扩展名的索引拷贝 unlink_old = 1 ## 属性刷新周期 ## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。 # attr_flush_period = 900 ## 索引字典存储方式 # ondisk_dict_default = 1 ## 用于多值属性MVA更新的存储空间的内存共享池大小 mva_updates_pool = 1M ## 网络通讯时允许的最大的包的大小 max_packet_size = 8M ## 崩溃日志文件 # crash_log_path = /home/yejianfeng/instance/coreseek/var/log/crash ## 每次查询允许设置的过滤器的最大个数 max_filters = 256 ## 单个过滤器允许的值的最大个数 max_filter_values = 4096 ## TCP监听待处理队列长度 # listen_backlog = 5 ## 每个关键字的读缓冲区的大小 # read_buffer = 256K ## 无匹配时读操作的大小 # read_unhinted = 32K ## 每次批量查询的查询数限制 max_batch_queries = 32 ## 每个查询的公共子树文档缓存大小 # subtree_docs_cache = 4M ## 每个查询的公共子树命中缓存大小 # subtree_hits_cache = 8M ## 多处理模式。 可选项;可用值为none、fork、prefork,以及threads。 默认在Unix类系统为form,Windows系统为threads。 workers = threads # for RT to work ## 并发查询线程数 # dist_threads = 4 ## 二进制日志路径 # binlog_path = # disable logging # binlog_path = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there ## 二进制日志刷新 # binlog_flush = 2 ## 二进制日志大小限制 # binlog_max_log_size = 256M ## 线程堆栈 # thread_stack = 128K ## 关键字展开限制 # expansion_limit = 1000 ## RT索引刷新周期 # rt_flush_period = 900 ## 查询日志格式 ## 可选项,可用值为plain、sphinxql,默认为plain。 # query_log_format = sphinxql ## MySQL版本设置 # mysql_version_string = 5.0.37 ## 插件目录 # plugin_dir = /usr/local/sphinx/lib ## 服务端默认字符集 # collation_server = utf8_general_ci ## 服务端libc字符集 # collation_libc_locale = ru_RU.UTF-8 ## 线程服务看守 # watchdog = 1 ## 兼容模式 # compat_sphinxql_magics = 1}

更多关于PHP相关内容感兴趣的读者可查看本站专题:《PHP扩展开发教程》、《PHP网络编程技巧总结》、《php curl用法总结》、《PHP数组操作技巧大全》、《PHP数据结构与算法教程》、《php程序设计算法总结》及《php字符串用法总结》

希望本文所述对大家PHP程序设计有所帮助。

编辑:编程知识 本文来源:安装说明,Windows本地安装及PHP使用Sphinxapi示例

关键词: