2009-06-26 10 views
10

誰でも、フルテキスト検索(および一般的には索引作成)に関する良い本/論文/記事を推薦できますか?私はアプリケーションの中で何が起こっているのかを理解しなければならないのはかなり魅力的ですが、なぜSphinxや他の外部FTSがMySQL/MyISAMをほこりから守っているのか理解できません。全文検索入門?

答えて

5

フルテキスト検索をボトムアップから理解するために、「ギガバイトの管理」をお勧めします。

http://www.cs.mu.oz.au/mg/

2

私はthisで始まります。これはSQL Server用ですが、実装の詳細以外の多くの概念がDB全体で同じ(非常に可能性が高い)であるため、読書は傷つくことはありません。

3

私はpostgresフルテキスト検索ページhttp://www.postgresql.org/docs/8.3/static/textsearch.htmlを発見しました。 http://www.postgresql.org/docs/8.3/static/textsearch-intro.html

テキストの検索演算子は何年ものデータベースに存在している:特に

。 PostgreSQLは、テキストデータ型のために〜、〜*、LIKE、およびILIKE演算子を持っていますが、彼らは現代の情報システムに必要な多くの本質的な特性に欠けている:

  • 何の言語サポートも 英語のため、ありません。正規表現は、 が十分でないため、 は派生語を容易に処理できません。たとえば、 が満たして満足します。あなたはおそらく 満足している文書を見つけられないかもしれませんが、 満足していると検索したときにそれらを見つけることはおそらくありますが、 です。 ORを使用して を複数の派生フォームで検索することはできますが、この は面倒でエラーが発生しやすくなります( の単語の中には数千の の派生語を含めることができます)。
  • 検索結果の並べ替え(ランク付け)はありません。 は と一致するドキュメントが見つかりました。
  • インデックスがサポートされていないために処理が遅くなる傾向がありますので、 はすべて の検索ですべてのドキュメントを処理する必要があります。
3

優れた無料の情報検索帳(クリストファー・D・マニング、プラブハカ・ラガバンとハインリックSchütze、情報検索、ケンブリッジ大学出版入門。2008)、テキスト検索、使用可能な空き(legit) hereを含むがあります。