相關(guān)關(guān)鍵詞
關(guān)于我們
最新文章
- PHP中opcode緩存簡(jiǎn)單用法分析
- thinkPHP控制器變量在模板中的顯示方法示例
- PHP move_uploaded_file() 函數(shù)(將上傳的文件移動(dòng)到新位置)
- dirname(__FILE__)的含義和應(yīng)用說明
- thinkPHP5框架實(shí)現(xiàn)分頁查詢功能的方法示例
- PHP中單雙號(hào)與變量
- PHP獲得當(dāng)日零點(diǎn)時(shí)間戳的方法分析
- Laravel ORM對(duì)Model::find方法進(jìn)行緩存示例詳解
- PHP讀寫文件高并發(fā)處理操作實(shí)例詳解
- 【CLI】利用Curl下載文件實(shí)時(shí)進(jìn)度條顯示的實(shí)現(xiàn)
淺談Coreseek、Sphinx-for-chinaese、Sphinx+Scws的區(qū)別
Sphinx是一個(gè)基于SQL的全文檢索引擎;普遍使用于很多網(wǎng)站
Sphinx的特性如下:
a) 高速的建立索引(在當(dāng)代CPU上,峰值性能可達(dá)到10 MB/秒);
b) 高性能的搜索(在2 – 4GB 的文本數(shù)據(jù)上,平均每次檢索響應(yīng)時(shí)間小于0.1秒);
c) 可處理海量數(shù)據(jù)(目前已知可以處理超過100 GB的文本數(shù)據(jù), 在單一CPU的系統(tǒng)上可處理100 M 文檔);
Sphinx本身對(duì)中文的支持并不好。
主要體現(xiàn)在對(duì)一段話斷詞;英文只需按照空格對(duì)其分詞即可;但對(duì)于博大精深的中文來說,卻是件困難的事情。
分詞在兩個(gè)地方會(huì)用到;
1、索引時(shí),根據(jù)分詞索引原始數(shù)據(jù)
2、搜索時(shí),對(duì)用戶輸入分詞,到索引中查詢
目前最常用的三種方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws
1、Coreseek 為國人基于Sphinx開發(fā)的方案,目前最穩(wěn)定版,是基于經(jīng)典的Sphinx0.9.9版
優(yōu)點(diǎn):有成熟的文檔、以及社區(qū);其分詞mmseg為目前國內(nèi)最為好用分詞,索引和搜索分詞都可以用到;
缺點(diǎn):深度開發(fā)、版本更新較慢;索引較慢
策略:一個(gè)詞庫管理后臺(tái),維護(hù)詞庫;定期生成字典;此套件會(huì)自動(dòng)分詞索引;
適用場(chǎng)景:普通青年、搭建差不多的搜索,適用于普遍網(wǎng)站
2、Sphinx-for-chinaese 為國人2基于經(jīng)典的Sphinx0.9.9版開發(fā)的擴(kuò)展版
優(yōu)點(diǎn):部署簡(jiǎn)單,易操作,內(nèi)嵌分詞和詞庫,索引和搜索分詞都可以用到;
缺點(diǎn):版本更新較慢;分詞較弱;索引相對(duì)較慢
策略:同一
適用場(chǎng)景:普通青年、快速搭建搜索的小站
3、Sphinx+Scws 為兩套獨(dú)立系統(tǒng),單獨(dú)部署,所謂高內(nèi)聚低耦合,強(qiáng)烈推薦
優(yōu)點(diǎn):兩套系統(tǒng),相對(duì)獨(dú)立,各自單獨(dú)Server;分詞可以做其他用途;版本更新較快;
缺點(diǎn):部署稍復(fù)雜,使用稍復(fù)雜;索引分詞只能用一元分詞,數(shù)據(jù)量較大
策略:詞庫管理外;使用時(shí),先調(diào)用分詞服務(wù),后調(diào)用搜索
適用場(chǎng)景:文藝青年、搭建像樣點(diǎn)的搜索;好吧文藝青年
以上這篇淺談Coreseek、Sphinx-for-chinaese、Sphinx+Scws的區(qū)別就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。