nutch

1熱

1答えて

ボタンをクリックしてインデックスを作成した後、urlからファイルをダウンロードすることは可能ですか？例 - URLがhttp://example.com とし、http://example.comのボタンをクリックして保存するとファイルがダウンロードされます。どのように我々はapache nutchでそれを行うことができます。

0熱

1答えて

クロールされたコンテンツに区切り文字を追加する

クロールされたコンテンツから特定の情報を取得しようとしています。 nutchはウェブサイトの全文をまとめてダンプするので、特定のコンテンツを取得することは難しいです。私は、弾性検索でインデックスを作成しているクロールされたテキストコンテンツに区切り文字を追加したいと思います。 http://example.com/からデータをクロールしながら、私はそれが形式で Example Domain

0熱

1答えて

Nutchでは、DBを使用してすべてのシードURLのリストを保存するにはどうすればよいですか？

現在、私はseed.txtファイルをクロールするドメイン名のリストとともに使用していますが、このリストをDBに入れる方法はありますか？それはNutchでセットアップしますか？関連：関連するドメインの数に制限はありますか？

0熱

1答えて

Nutchで異なるフェッチ間隔を持つことは可能ですか？

私がリストアップした各URLまたはURLのグループごとに異なるフェッチ間隔を使用することはできますか？もしそうでなければ、いつでもURLを取得するためのコマンドがありますか？（これは私がcronジョブやデーモンを使う方法です）？

0熱

1答えて

Apache Nutch 2.xでwebgraphを取得する方法

apache nutch 2.3.1を使用していくつかのWebサイトをクロールしています。クロールされたデータのwebgrapgを見つける必要がありますが、残念ながらバージョン1.xのようにこのバージョンでは定義されていません。私はこれについていくつかの人を導くことができますか？続きは、バージョン2.3.1のための完全なコマンドラインオプションです（ただし、何webgraphはありません）残念な

0熱

1答えて

JavaでSolrを使用して既存のドキュメントをインデックスする方法

Javaを使用して、Solrで検索エンジンのインデクサを作成しようとしています。私はたくさんのグーグルグーグルをしてきました。コア・コンテナを使用して文書を追加し、次にSolrサーバーがすべてのデータを索引付けするなど、さまざまなアプローチが見つかりました。もう一つのアプローチはSolr Indexerを使ってNutchを使うことです。私はSolrに新しく、使用するコードがわからない。ところで、

0熱

1答えて

Apache Nutch 1.12とSolr 5.4.1の統合に失敗しました

Nutchを使用して複数のWebサイトを正常にクロールして2つのセグメントを作成しました。私はSolrサービスもインストールして起動しました。しかし、これらのクロールされたデータをSolrにインデックス付けしようとすると、そのデータは機能しません。私は、このコマンドを試してみました： bin/nutch index http://localhost:8983/solr crawl/crawld

0熱

2答えて

Solr.homeのSetPropertyはSolrで何をしますか？

私はSolrで検索エンジン用のいくつかのドキュメントのインデックスを作成しようとしています。 System.SetProperty("solr.solr.home", "/home/emre/solr"); CoreContainer.Initializer Initializer = new CoreContainer.Initializer(); CoreContainerは何をするのか

0熱

1答えて

200kドメインのテキストをスクラブで抽出する

私の問題は次のとおりです。たとえば、www.example.comなどのドメインからすべての貴重なテキストを抽出します。だから私はこのウェブサイトに行って、最大深度2のすべてのリンクを訪問し、それをcsvファイルに書きます。 1つのプロセスを使用して複数のクローラを生成するこの問題を解決するモジュールをscrapyで作成しましたが、効率的ではありません - 〜1kドメイン/〜5kウェブサイト/ h

0熱

1答えて

Apache Nutchはrabbitmqにクロールされたドキュメントを書いています

現在、私は弾力性のあるバッチでドキュメントを書く弾性インデクサープラグインを持っています。私は今、これらをrabbitmq交換に書きたいと思っています。エラスティックプラグインの書き込みメソッドの内部で交換を試みましたが、これはローカルから手動で実行したときに動作していましたが、hadoopクラスタで実行したときには機能しませんでした。私はまた、publish-rabbitmqプラグインを見て