2017-05-05 7 views
0

MapReduceジョブで何らかの意味を理解するために、データを解析しています。解析されたデータは、バッチ形式で提供されます。それはスパークストリーミングジョブを通じてハイブ外部テーブルにさらにロードされます。これはリアルタイムプロセスです。今では、_temporaryディレクトリが出力場所に作成されたため、異常なイベントが発生しました。これは、ハイブテーブルへのロードが失敗し、ディレクトリをハイブテーブルにロードできないためです。それは一度だけ起こり、残りの仕事はうまく動作しています。スクリーンショットを参照してください。mapreduceジョブが完了すると、_temporaryディレクトリが出力場所から削除されません。

Screenshot of output location

_temporaryディレクトリさらに空になっているサブディレクトリとしてタスクIDが含まれています。誰も将来これを避けることができるようにこれを解決するのに助けてください。

答えて

0

まだ完了していないタスクがある場合、_temporaryディレクトリが作成されます。実際の場所を一時的な場所から移動するデータはまだありません。タスクはWeb UIで完了したように見えるかもしれませんが、データの移動はまだ完了していません。このプロセスが完了すると、_SUCCESSファイルのみが存在します。 _temporaryディレクトリのサイズを監視することでこれを確認できます。これは徐々に減少していきます。

+0

このディレクトリには何もありませんでした。バッチは正常に完了しました。理想的には_temporaryディレクトリを削除する必要がありますが、ジョブが完了してもそのディレクトリが見つかりました。 –

+0

こんにちは、私はここで同じ問題に直面している、あなたはこの仮説_現代の問題を解決する回避策を見つけましたか? @MohitRaja – KAs

関連する問題