information-retrieval

    1

    1答えて

    私は英語でクエリを取り、ロシア語で文書を検索するクロス言語情報検索に取り組んでいます。このシステムを評価するには、検索するロシア文書のコレクションを用意するのが良いでしょう。誰もが私が検索することができる文書のコレクションを知っているか、私は簡単に一緒にロシア文書(ウィキペディアを除いて)の束を掻き集めることができますか?彼らは人間の知識のいくつかの特定の領域にあった場合、それはいいだろうけれども

    0

    2答えて

    私の現在のプロジェクトでは、複数のメールボックスからすべての電子メールとその添付ファイルのインデックスを作成する必要があります。 私はSolrを使用しますが、インデックスの構造を構築するための最良の方法は何か分かりません。私の最初のアプローチは: <fields> <field name="id" require="true"/> <field name="uid" require="true

    12

    10答えて

    特定のものをクロールしたい。特に、コンサート、映画、アートギャラリーのオープニングなどのようなイベントがあります。誰かが時間を費やすかもしれないもの。 クローラを実装するにはどうすればよいですか? 私はグラブの聞いたことがある(grub.org - >ウィキア)とHeritix(http://crawler.archive.org/) があり、他はありますか? どのような意見がありますか? -Ja

    1

    2答えて

    個人用のナレッジベースとしてUSBキーに保存する多数の基本テキスト、rtf、html、pdfおよびchmファイルがあります。 これまで、情報を検索するために、標準のファイル検索ツール(Windows検索、grepなど)を使用しました。しかし、最近では、膨大なデータサイズのためにブルートフォース検索に数分かかることがあります。また、PDFやCHMも検索が難しいです。 したがって、この状況でうまくいく