sparkを使ってハイブで生成されたシーケンスファイルを読み込もうとしています。私がファイルにアクセスしようとすると、私はorg.apache.spark.SparkExceptionに直面しています:ジョブがステージの失敗によって中断されました:タスクがシリアライズできません:java.io.NotSerializableException:スパークJavaを使用したシーケンスファイルの読み込み問題
私はこの問題の回避策クラスはシリアライズ可能ですが、私はまだ問題に直面しています。私はここにコードスニペットを書いています、私がここで何が不足しているか教えてください。
BytesWritableデータ型などの問題が原因ですか。
JavaPairRDD<BytesWritable, Text> fileRDD = javaCtx.sequenceFile("hdfs://path_to_the_file", BytesWritable.class, Text.class);
List<String> result = fileRDD.map(new Function<Tuple2<BytesWritables,Text>,String>(){
public String call (Tuple2<BytesWritable,Text> row){
return row._2.toString()+"\n";
}).collect();
}
は、エラーのスタックトレースを投稿してくださいスパークでそれを行うことができますし、全体のコードを投稿することができれば、それが参考になります。 – code