SOはどのようにタグ付き検索を実装しましたか?タグ付き検索のためにLuceneや他のオープンソース検索エンジンライブラリを使用していますか?StackOverflowはタグ付き検索にLuceneを使用していますか?
文書(PDF、XML、HTML、MS Word)またはデータベースを検索する最良の方法は何ですか?
SOはどのようにタグ付き検索を実装しましたか?タグ付き検索のためにLuceneや他のオープンソース検索エンジンライブラリを使用していますか?StackOverflowはタグ付き検索にLuceneを使用していますか?
文書(PDF、XML、HTML、MS Word)またはデータベースを検索する最良の方法は何ですか?
はい、Lucene.NETを使用していますが、正確にはわかりません。 「最良の」方法は全体的な「話」です。
タグを検索することは、テキストを検索することと大きく異なります。タグ付き検索は、質問がすべて特定のタグに関連付けられている関連付けを検索しています。これは、タグがすべて単一の大きなエントリに追加されるフルテキストエンジンで実装できますが、この状況ではリレーショナルデータベースが最も適しています(タグ付きデータがリレーショナルデータベースに入っていると仮定します)。
PDF、XLS、HTMLなどの他のドキュメントを検索するには、Luceneのようなフルテキストが必要です。関連するテキストだけを各ソースから抽出できるパーサーが必要です(つまり、マークアップとテキストを分ける)。
最後にこれについて(ポッドキャストで)議論したところでは、StackoverflowはLuceneではなくSQL Serverのフルテキスト検索機能を使用すると述べられています。
SOはLuceneを使用していません。
文書をインデックスに登録してWindowsを実行する場合は、IFiltersが私の最初の選択です。
「スタックオーバーフローの概要」:http://stackoverflow.com/questions/749358/ –