私はs3からファイルを読み取り、5を取り、s3に書き戻す単純なスパークジョブを持っています。 私が見ているのは、s3に出力ファイル "directory"の横にoutput_ $ folder $という名前の追加ファイルが常にあるということです。S3でドル記号の付いたジャンクスパーク出力ファイル
この意味は?どのように私はそれを作成するスパークを防ぐことができますか?ここで は私がやっているかを示すためにいくつかのコードです...
x = spark.sparkContext.textFile("s3n://.../0000_part_00")
five = x.take(5)
five = spark.sparkContext.parallelize(five)
five.repartition(1).saveAsTextFile("s3n://prod.casumo.stu/dimensions/output/")
仕事の後、私はS3の結果を含む出力と呼ばれる「ディレクトリ」と、私は知りません$フォルダ$ output_と呼ばれる別のS3オブジェクトを持っていますそれは何ですか。