nutch

    1

    1答えて

    ボタンをクリックしてインデックスを作成した後、urlからファイルをダウンロードすることは可能ですか? 例 - URLがhttp://example.com とし、http://example.comのボタンをクリックして保存するとファイルがダウンロードされます。どのように我々はapache nutchでそれを行うことができます。

    0

    1答えて

    クロールされたコンテンツから特定の情報を取得しようとしています。 nutchはウェブサイトの全文をまとめてダンプするので、特定のコンテンツを取得することは難しいです。私は、弾性検索でインデックスを作成しているクロールされたテキストコンテンツに区切り文字を追加したいと思います。 http://example.com/からデータをクロールしながら、私はそれが形式で Example Domain

    0

    1答えて

    現在、私はseed.txtファイルをクロールするドメイン名のリストとともに使用していますが、このリストをDBに入れる方法はありますか?それはNutchでセットアップしますか? 関連:関連するドメインの数に制限はありますか?

    0

    1答えて

    私がリストアップした各URLまたはURLのグループごとに異なるフェッチ間隔を使用することはできますか? もしそうでなければ、いつでもURLを取得するためのコマンドがありますか?(これは私がcronジョブやデーモンを使う方法です)?

    0

    1答えて

    apache nutch 2.3.1を使用していくつかのWebサイトをクロールしています。クロールされたデータのwebgrapgを見つける必要がありますが、残念ながらバージョン1.xのようにこのバージョンでは定義されていません。私はこれについていくつかの人を導くことができますか?続き は、バージョン2.3.1のための完全なコマンドラインオプションです(ただし、何webgraphはありません)残念な

    0

    1答えて

    Javaを使用して、Solrで検索エンジンのインデクサを作成しようとしています。私はたくさんのグーグルグーグルをしてきました。コア・コンテナを使用して文書を追加し、次にSolrサーバーがすべてのデータを索引付けするなど、さまざまなアプローチが見つかりました。もう一つのアプローチはSolr Indexerを使ってNutchを使うことです。 私はSolrに新しく、使用するコードがわからない。ところで、

    0

    1答えて

    Nutchを使用して複数のWebサイトを正常にクロールして2つのセグメントを作成しました。私はSolrサービスもインストールして起動しました。 しかし、これらのクロールされたデータをSolrにインデックス付けしようとすると、そのデータは機能しません。 私は、このコマンドを試してみました: bin/nutch index http://localhost:8983/solr crawl/crawld

    0

    2答えて

    私はSolrで検索エンジン用のいくつかのドキュメントのインデックスを作成しようとしています。 System.SetProperty("solr.solr.home", "/home/emre/solr"); CoreContainer.Initializer Initializer = new CoreContainer.Initializer(); CoreContainerは何をするのか

    0

    1答えて

    私の問題は次のとおりです。たとえば、www.example.comなどのドメインからすべての貴重なテキストを抽出します。だから私はこのウェブサイトに行って、最大深度2のすべてのリンクを訪問し、それをcsvファイルに書きます。 1つのプロセスを使用して複数のクローラを生成するこの問題を解決するモジュールをscrapyで作成しましたが、効率的ではありません - 〜1kドメイン/〜5kウェブサイト/ h

    0

    1答えて

    現在、私は弾力性のあるバッチでドキュメントを書く弾性インデクサープラグインを持っています。私は今、これらをrabbitmq交換に書きたいと思っています。 エラスティックプラグインの書き込みメソッドの内部で交換を試みましたが、これはローカルから手動で実行したときに動作していましたが、hadoopクラスタで実行したときには機能しませんでした。 私はまた、publish-rabbitmqプラグインを見て