擬似分散Hadoopクラスタを設定してテストしています(namenode、ジョブトラッカー、タスクトラッカー/データノードはすべて同じマシン上にあります)。私が実行しているボックスには、約4ギガバイトのメモリ、2 cpus、32ビットがあり、Red Hat Linuxを実行しています。これらのHadoopのセットアップ/クリーンアップ/実行時間は合理的ですか?
チュートリアルにあるサンプルgrepプログラムをさまざまなファイルサイズとファイル数で実行しました。私はgrepが1 mbファイルの場合は45秒、100 mbファイルの場合は60秒、1ギガファイルの場合は約2分かかることがわかりました。
また、すべてのロジックを完全に削除する独自のマップリダクションプログラムも作成しました。 map関数とreduce関数は空です。このサンプルプログラムは実行に25秒かかりました。
データノードを2台目のマシンに移動し、2台目のノードに追加しようとしましたが、数秒間の変更しか表示されません。特に、セットアップとクリーンアップの時間は、どの入力に関係なく、常に約3秒であることに気付きました。これはセットアップのために本当に長い時間がかかりそうです。
ハードウェア、設定、入力などによってこれらの時間が大きく変わることは知っていますが、もし私が期待していなければならないことがあれば教えてください。私はそれをかなり減らすことができます(例えば、grepは<を5秒間合計します)。