information-retrieval

1熱

1答えて

私は英語でクエリを取り、ロシア語で文書を検索するクロス言語情報検索に取り組んでいます。このシステムを評価するには、検索するロシア文書のコレクションを用意するのが良いでしょう。誰もが私が検索することができる文書のコレクションを知っているか、私は簡単に一緒にロシア文書（ウィキペディアを除いて）の束を掻き集めることができますか？彼らは人間の知識のいくつかの特定の領域にあった場合、それはいいだろうけれども

0熱

2答えて

DynamicField in Solr

私の現在のプロジェクトでは、複数のメールボックスからすべての電子メールとその添付ファイルのインデックスを作成する必要があります。私はSolrを使用しますが、インデックスの構造を構築するための最良の方法は何か分かりません。私の最初のアプローチは： <fields> <field name="id" require="true"/> <field name="uid" require="true

12熱

10答えて

インターネットをクロールする

特定のものをクロールしたい。特に、コンサート、映画、アートギャラリーのオープニングなどのようなイベントがあります。誰かが時間を費やすかもしれないもの。クローラを実装するにはどうすればよいですか？私はグラブの聞いたことがある（grub.org - >ウィキア）とHeritix（http://crawler.archive.org/）があり、他はありますか？どのような意見がありますか？ -Ja

1熱

2答えて

個人用ナレッジベースファイルの索引検索ツール

個人用のナレッジベースとしてUSBキーに保存する多数の基本テキスト、rtf、html、pdfおよびchmファイルがあります。これまで、情報を検索するために、標準のファイル検索ツール（Windows検索、grepなど）を使用しました。しかし、最近では、膨大なデータサイズのためにブルートフォース検索に数分かかることがあります。また、PDFやCHMも検索が難しいです。したがって、この状況でうまくいく