2013-05-25 9 views
5
apt-get install python-sphinx  
apt-get install sphinxsearch  
mkdir rest  
cd rest/  
sphinx-quickstart  

私は再構成されたテキストで自分の最初の記事を作成します。
http://s.yunio.com/!LrAsuスフィンクスが作成したドキュメントで中国語と短い単語を検索するには?

それをダウンロードし、コンピュータ上でそれをuntarする、/rest/build/htmlにCD、あなたのクロムとのオープンindex.rstしてください。

私は再編テキスト検索機能であることが見つかりました:短い単語に

を検索しない2.can

漢字
を検索しない1.can attatchment 1を参照してください、それが検索対象とする私の対象品です
enter image description here is标准が本文に記載されています。

アタッチメント2を参照してください。本文にある中国語の文字标准は検索できません。 enter image description here アタッチメント3を参照してください。テキストにある短い単語isは検索できません。 enter image description here

どのように問題を解決できますか?

+0

「is」の場合、それはストップワードであると思います。 http://en.wikipedia.org/wiki/Stop_words – Naruil

+0

異なるエンコードを使用していますか?たぶんそれは問題です。ブラウザはutf8を使用しています。あなたが探したいファイルのエンコーディングは何ですか? – User

答えて

6

編集:そこに空きがなく、スフィンクスは、インデックスを構築するための単語を分割する場所を知らないため

スフィンクスが唯一の全体の中国文のインデックスを構築します。ファイルsearchindex.jsで生成されたインデックスを確認してください。

単語「标准表达方式」を検索してみてください。^_^

スフィンクスは、python scrpitを使ってインデックスを作成しますsearch.pyです。探してみる

stopwords = set(""" 
a and are as at 
be but by 
for 
if in into is it 
near no not 
of on or 
such 
that the their then there these they this to 
was will with 
""".split()) 

なぜこのような単語が見つからないのですか。これらの単語をインデックスに表示したい場合は、このリストから削除できます。

我々はまた、このラインを見つけることができます。

word_re = re.compile(r'\w+(?u)') 

これは単語を分割するためにスフィンクスで使用される正規表現です。今、中国語を索引できない理由を知ることができます。

解決策は、このファイルに中国語単語分割のサポートを追加することです。誰かがすでにそれを行っています:スフィンクス検索エンジンのためのhttp://hyry.dip.jp/tech/blog/index.html?id=374

回答:

を、私はここで他の人がそれが役に立つかもしれません場合は、それを残します。 mzjnがそれを指摘してくれてありがとう。

中国の文字セットを認識できないため、スフィンクスはデフォルトで中国語をサポートしていません。単語を分割してインデックスを作成する場所はわかりません。構成ファイルを変更して中国語の索引付けを可能にする必要があります。

具体的には、あなたはそれを動作させるためにsphinx.confcharset_tablengram_lenngram_charsを変更する必要があります。あなたは適切な設定のためにこれらのキーワードをgoogleすることができます。

しかし、スフィンクスはすべての単一の中国語文字が単語として扱われるため、巨大なインデックスを生成することがあります。したがって、実際に中国語の文書のインデックスを作成する場合は、代わりにcoreseekを試してください。

+0

質問は[Sphinx documentation generator](http://sphinx-doc.org)です。**スフィンクスの検索エンジンではありません**。 – mzjn

+0

@mzjnああ、それは私のせいです。私はすでにそれを修正しました。 – Naruil

+0

なぜ私のスフィンクスには 'search.py​​'もありませんか? –