2016-05-17 14 views
1

spark-terasortをspark-1.6.1-bin-hadoop1(hadoop 1.Xの既成パッケージ)で実行しようとしています。spark-1.6.1-bin-hadoop1でspark-terasortを実行することができません

私は火花を実行しよう:

./bin/spark-submit --class com.github.ehiggs.spark.terasort.TeraGen ~/spark-terasort/target/spark-terasort-1.0-jar-with-dependencies.jar 100G hdfs:///input_terasort 

私はエラーを取得する:

Exception in thread "main" java.lang.IncompatibleClassChangeError: Found class org.apache.hadoop.mapreduce.JobContext, but interface was expected

これは(火花と火花terasortの間で)異なるHadoopのバージョンで行う必要があります。私はpom.xml(spark-terasortをコンパイルするために使用されていました)を使いこなそうとしましたが、あまり成功しませんでした。

spark-terasortをspark-1.6.1-bin-hadoop1と一緒に使用するにはどうすればよいですか?

答えて

0

spark-terasort古いです:

<scala.binary.version>2.10</scala.binary.version> 
    <spark.version>1.2.1</spark.version> 

私はそれをパッチに探しています。

更新私は1.6.0-SNAPSHOTで試してみましたが、TeraGenは正常に動作しました。

Input size: 1000KB 
Total number of records: 10000 
Number of output partitions: 2 
Number of records/output partition: 5000 
=========================================================================== 
=========================================================================== 
Number of records written: 10000 

ローカルファイルシステムに対して実行したときにこれがいました。私は今から約12時間後に実際の hdfsを見るでしょう。

+0

ありがとうございます。1.6.0-SNAPSHOTバージョンのsparkはどこで入手できますか? – JC1

+0

ああ - あなたは1.6.1でうまくいくはずです:あなたのバージョンは私のものより少し新しいです*。基本的に私はあなたの問題を再現するために、より多くの宿題をする必要があります。今の私の結果は、テラジェン*に若干の希望があることを示すために、より "fyi"として提供されました。 – javadba

関連する問題