hadoop

5熱

2答えて

マップ縮小ジョブの連鎖を実行したいので、最も簡単な解決策はjobcontrollerのようです。私はjob1とjob2の2つの仕事があると言います。 job1の後にjob2を実行したい。まあ、それはいくつかの問題に直面した。デバッグの時間後、私はこれらの行にコードを絞り込ん： JobConf jobConf1 = new JobConf(); JobConf jobConf2 = new Job

2熱

2答えて

ローカルマシンからamazon s3にファイルをアップロードするHadoop

私はJava MapReduceアプリケーションに取り組んでいます。これは、ユーザーのローカルマシンからS3バケットへのアップロードサービスを提供する必要があります。アプリはEC2クラスタで実行する必要があるので、ファイルをコピーするときにローカルマシンをどのように参照できるかわかりません。メソッドcopyFromLocalFile（..）は、EC2クラスターになるローカルマシンからのパスを必要

3熱

1答えて

単一の実行

と外のHadoopへの「バケット」のデータを使用すると、キーに基づいて異なるディレクトリにデータを出力する実行のHadoopジョブを使用することが可能ですか？私の使用例は、サーバーアクセスログです。私はそれらを一緒に持っていると言いますが、いくつかの共通のURLパターンに基づいてそれらを分割したいと思います。例えば、/ fooで始まり何が/ /年/月/日/時/ fooの/ファイルに/バーで始

0熱

1答えて

ソースコードを使用してhadoop-0.21.0-core.jarを作成するにはどうすればよいですか？

ソースコードを使用してhadoop-0.21.0-core.jarを作成するにはどうすればよいですか？私はsvnからソースコードをチェックアウトしています。今私は3つのdirs共通、hdfs、マップされている hadoopプログラムを実行するためにhadoop-0.21.0-core.jarをビルドしたいと思います。

6熱

3答えて

PigLatinで "3"を3に変換する

数字が "3"のフィールドを含むCSVファイルを読み込んでいます。 PigLatinでこのフィールドを「3」から3に変換できますか？ SUM（） - 関数を使用する必要があります。ありがとうございました！

2熱

3答えて

ログはコンソールに表示されません。（[Hadoop Question]

Cloudera HadoopのWordCountの例をデバッグしようとしていますが、できません。マッパーとレデューサークラスを記録しましたが、コンソールログを表示されません。私は画像を添付します。最初の画像で、Javaのログ。二イマヘンでは、結果のログ。これは最初のものを表示されません:( http://i56.tinypic.com/2eztkli.png 誰でも知っていますか？ありがと

6熱

3答えて

小さなHDFSブロックを組み合わせる最も簡単な方法はどれですか？

Flumeを使用してHDFSにログを収集しています。テストケースの場合、ログ収集プロセスは実際の使用のためにスケーリングされているので、私は小さなファイル（〜300kB）を持っています。これらの小さなファイルをHDFSブロックサイズ（64MB）に近い大きなファイルに簡単に結合する方法はありますか？

16熱

2答えて

hbase-site.xmlのzookeeperクォーラム設定は正確に何ですか？

hbase-site.xmlのzookeeperクォーラム設定は正確に何ですか？ HBaseの-default.xmlのファイルから

1熱

2答えて

s3のデータを、hadoopハイブで使用するためにどのように分割する必要がありますか？

私は、特定の順序で約300GBのログファイルを含むs3バケットを持っています。特定の日に関連するログラインが同じs3 'フォルダ'にまとまっているように、hadoop-hiveで使用するためにこのデータを分割する必要があります。例えば、1月1日のログエントリは、次の命名にマッチするファイルに次のようになります。 s3://bucket1/partitions/created_date=2010-

18熱

4答えて

PythonでHadoop Streaming Job failedエラーが発生しました

this guideから、私はサンプルエクササイズに成功しました。しかし、私のMapReduceジョブを実行する上で、私は、ログファイル java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2 at org.apache.hadoop.streaming.PipeMapRe