2017-12-18 13 views
0

dataset.write.jdbcメソッドを使用してデータベース(DB2)に巨大なデータセットを書き出しています。レコードの1つにDBに挿入する際に問題があると、データセット全体が失敗することがわかります。これは、データセットが巨大なパイプラインを走らせることによって準備されているので、高価であることが判明しています。永続性が失われたためにパイプライン全体を再実行することは理にかなっていません。スパークデータセットjdbc書き込みがバッチ更新で失敗する

答えて

0

この問題は、例外処理よりもはるかに大きいようです。理想的には、データパイプラインは、処理/変換される前にデータを検証するように設計する必要があります。一般的な文脈では、これはデータ検証とクレンジングと呼ばれます。このフェーズでは、NULL /空の値を識別し、それに応じて処理することができます。特に、結合に関与する属性または参照に関与する属性。パイプラインの後続のステップで問題が発生しないように変換する必要があります。実際、これはすべての変換に適用可能です。お役に立てれば。

+0

問題の技術的解決策を探しています。設計練習ではありません。 –

関連する問題