デフォルトでは、ホストに基づいたnutchパーティションのURLです。 nutch-default.xml
で対応するプロパティは次のとおりです。
<property>
<name>partition.url.mode</name>
<value>byHost</value>
<description>Determines how to partition URLs. Default value is 'byHost',
also takes 'byDomain' or 'byIP'.
</description>
</property>
あなたの設定に値を確認してください。
私はあなたの問題はこれらの質問のための答えを取得することによって診断することができると思います。
- マッパーがフェッチ仕事のために作成されたどのように多くの?複数のマッパーが生成され、それらのすべてが1つを除いて早く終了した可能性があります。
- topNの値はgenerateコマンドで使用されましたか?これが低い場合は、30Kのページを持っているにもかかわらず、フェッチフェーズに送られることは非常に少なくなります。
- generateコマンドにnumFetchersオプションを使用していましたか?これは、フェッチジョブ用に作成されたマップの数を制御します。
- パーティション生成ジョブで生成されたリビジョン数はどれですか?この値が1の場合、フェッチフェーズでマップが1つだけ作成されます。生成パーティションの出力はフェーズをフェッチするために与えられます。生成によって生成されるパーツファイルの数(すなわち、生成のための減速器)は、フェッチジョブのために作成されるマップの数に等しい。
- hadoopのmapred.map.tasksの設定とは何ですか? reduceに対応する値は何ですか?
1)numFetchersオプションがで、クロールのクラスに対して有効であるようにそれはいないようです)私はのtopN 3を指定しなかった)だけで1マッパーがフェッチステップ 2用に生成されていることが表示されますnutch-1.4.jobアーカイブ 4)約200 5)私は値を設定しなかったので、EMRのデフォルト値です。 – cberner
ステップ4で説明したように、パーティションの生成ジョブに単一のレデューサーしかない場合はどうなりますか?フェッチが1つのマップタスクでのみ実行されている状況で実行されています。これには、パーティション生成ジョブの単一のレデューサーが先行しています。 Nutchに複数のマップタスクをフェッチさせるにはどうすればよいですか?パーティション生成ジョブに複数のレデューサーを強制する設定はありますか? – user1965449