すべて
ハイドロップクラスターでナッチがどのように動作するのか不思議です。どのようにしてジョブを他のノードに分割しますか?クラスタ内の異なるノードが同じURLを要求しないことをどのように保証しますか?
アドバイスありがとうございます。 NutchののNutchはHadoopクラスタでどのように動作しますか?
答えて
相は、次のとおりです。 注入する - >を生成 - >取得 - >パース - >アップデート - >インデックスこれらのうち
は、位相のNutchは、URLのリクエストを送信する(したがって、私の場所は意志で取得します
フェーズを生成すると、crawldb内のURLのフェッチリストが作成されます。 fetchlistの作成中に、同じホストに属するURLは通常、パーティション化機能がホスト名に基づいているため、同じパーティションに入ります。だから、フェッチ最終的なリストは、次のようになります。相をフェッチの単一マッパに割り当てられたことで/位相を取得
今fetch list 1 : all urls of host a1, b1, c1
fetch list 2 : all urls of host a2, b2, c2
.............
.............
は、これらのfetchlistsを読み込み、各fetchlistが処理されます。相をフェッチ中マッパーがホストAのURLの束を取得した場合ので、
number of reducers in generate partition phase
= the number of fetchlists created
= number of maps in fetch phase
は、他のマップは同じホストのURLを持ちません。 Offcourse、各マップは複数のホストのURLを持つことができますが、他のマッパーはそれらのホストからのURLを持たないでしょう。
は今フェッチのマッパーに深く掘り:
それはHN ...、と言うnはホストH1、H2のURLを持つことになります。次に、ホスト毎にフェッチキューが形成されます。すべてのURL(フェッチ項目)は、それぞれのホストのフェッチキューに格納されます。フェッチャスレッドはフェッチキューのポーリングを行い、そこからURLを取得して要求を送信し、結果をhdfsに書き戻します。これが行われた後、彼らは処理できる他のfetchitems(URL)を探します。
わかりやすい方法で混乱させることができると思います。詳細については、Fetcher.java作業のコードを参照してください。
注:IPに基づいてURLをグループ化することもできます。あなたはホスト名/ IPに基づいてURLをグループ化しないようにnutchに微調整できます。これらの両方は、yr構成に依存します。デフォルトでは、URLをグループ化するためにホスト名が使用されます。
- 1. HDInsight Hadoop(Linux)クラスタでどのようにデッドノードを復旧しますか?
- 2. Spark Streaming:mapWithState関数はどのようにクラスタで動作しますか?
- 3. NutchはローカルモードでHadoopとは独立していますか?
- 4. Sqoop appendコマンドはhadoopでどのように動作するのですか
- 5. Hadoopクラスタ - ノードは起動しましたが、動作しません。
- 6. Meteorはどのように動作しますか?クライアントとサーバーはどのように動作しますか?
- 7. Hadoopマッパーは、部分的に次のブロックに流出するレコードでどのように動作しますか?
- 8. 単一のVMでHadoopクラスタを作成できますか?
- 9. CDHから既存のHadoop 2.6クラスタ上で動作するようにsparkを構築する方法
- 10. オープンソースSparkおよびHortonworksのHadoopサンドボックスでクラスタを使用するにはどうすればよいですか?
- 11. h2o hadoopクラスタのクラスタに接続する
- 12. ライブhbase/hadoopクラスタに新しいノードを追加するにはどうすればよいですか?
- 13. HDInsight HadoopクラスタとHDInsight Sparkクラスタの違いは何ですか?
- 14. 分散モデルトレーニングのためにhadoopクラスタでどのようにxgboostを実行できますか?
- 15. Hadoop Namenodeフェールオーバープロセスはどのように機能しますか?
- 16. Nutch Hadoop Development with Eclipse/IntilliJ IDEA
- 17. Makefileでは、VPATHはどのように動作しますか?
- 18. hadoopクラスタのトポロジ?
- 19. dataprocクラスタでhadoopサービスを再起動するにはどうすればいいですか
- 20. Cassandra:クラスタはどのようにデッドノードを処理しますか?
- 21. Google ChromeのHadoop上でnutch - gloud dataproc
- 22. クラスタ内でhadoopデーモン/プロセスを起動および停止する
- 23. リモートHadoopクラスタへのプロセスの計算とルックアップを実行するにはどうすればよいですか?
- 24. 「コール」はどのようにjavascriptで動作しますか?
- 25. JBehaveはJavaでどのように動作しますか?
- 26. jQuery Mobileはjsfiddle.netでどのように動作しますか?
- 27. Meteorアプリケーションはどのようにオフラインで動作しますか?
- 28. メソッドはどのようにPythonで動作しますか?
- 29. cin.peek()はC++でどのように動作しますか?
- 30. タプルでtypedefはどのように動作しますか?