0

EC2マシンでSpark 2.0.2を使用すると、パーティションにパーケット形式のS3にテーブルを書き込もうとしましたが、アプリケーションが終了したように見えません。 Sparkが_temporaryの下のS3バケット/フォルダにファイルを書き込んでいて、sparkのsaveAsTable JOBが終了すると、アプリケーションがハングすることがわかります。saveAsTableを使用してパーキングデータをS3に書き込む

s3を見ると、パーティションはフォルダパーティション内のデータで生成されますが、_temporaryフォルダはまだそこにあり、showテーブルには新しいテーブルが含まれていません。

これを体験している人はいませんか?

誰もがsaveAsTableコマンドの下で何が起こっているのか知っていますか?

+0

loglevel DEBUG/INFOでジョブを実行し、滞っている場所を確認してください。 – RBanerjee

答えて

0

データがハングしていないので、データを一時ストアからコピー先にコピーするだけで済み、データ/(10 MB /秒)程度の時間がかかります。 Sparkはこれを行うためにHadoopのFileOutputCommitterに呼び出しを行い、rename()が瞬間的なトランザクションであるFilesytsemとの会話と考えています。

関連する問題