PySparkのユニットテストのアプローチ

大きなテーブルを10個のルックアップテーブルに結合し、df.when節を使用してそのテーブルを変換するPySparkアプリケーションを作成しました。各ルックアップテーブルのdfを定義し、それらを結合することは、スクリプト内のほとんどの行を占有します。どのように私はこれをユニットテストするのですか？ルックアップテーブルとファイナルテーブルのそれぞれにsc.parallizeを使用して変換をチェックしますか？あなたはどのようにユニットテストスパークアプリケーションを通常ですか？PySparkのユニットテストのアプローチ

出典

2016-10-17 Kunal Anand

[this]（http://stackoverflow.com/questions/33811882/how-do-i-unit-test-pyspark-programs?rq=1）にチェックを入れましたか？ – ShuaiYuan

shuaiyuanさんのコメントはいいですし、Pythonでのテストにはpy.testのような既存のフレームワークを使うべきです。 DataFramesの質問に直接回答するには、sc.parallelizeを使用せず、代わりにspark.createDataFrameを使用して、関数に渡すDataFrameをインスタンス化することをお勧めします。次に、出力にdf.collect()を呼び出して、出力の行数が期待どおりで、列の値であることを確認できます。

出典

2017-02-27 21:53:12 ktal90

PySparkのユニットテストのアプローチ

答えて

関連する問題