2016-10-17 11 views
1

大きなテーブルを10個のルックアップテーブルに結合し、df.when節を使用してそのテーブルを変換するPySparkアプリケーションを作成しました。各ルックアップテーブルのdfを定義し、それらを結合することは、スクリプト内のほとんどの行を占有します。どのように私はこれをユニットテストするのですか?ルックアップテーブルとファイナルテーブルのそれぞれにsc.parallizeを使用して変換をチェックしますか?あなたはどのようにユニットテストスパークアプリケーションを通常ですか?PySparkのユニットテストのアプローチ

+0

[this](http://stackoverflow.com/questions/33811882/how-do-i-unit-test-pyspark-programs?rq=1)にチェックを入れましたか? – ShuaiYuan

答えて

1

shuaiyuanさんのコメントはいいですし、Pythonでのテストにはpy.testのような既存のフレームワークを使うべきです。 DataFramesの質問に直接回答するには、sc.parallelizeを使用せず、代わりにspark.createDataFrameを使用して、関数に渡すDataFrameをインスタンス化することをお勧めします。次に、出力にdf.collect()を呼び出して、出力の行数が期待どおりで、列の値であることを確認できます。