大きなテーブルを10個のルックアップテーブルに結合し、df.when節を使用してそのテーブルを変換するPySparkアプリケーションを作成しました。各ルックアップテーブルのdfを定義し、それらを結合することは、スクリプト内のほとんどの行を占有します。どのように私はこれをユニットテストするのですか?ルックアップテーブルとファイナルテーブルのそれぞれにsc.parallizeを使用して変換をチェックしますか?あなたはどのようにユニットテストスパークアプリケーションを通常ですか?PySparkのユニットテストのアプローチ
1
A
答えて
1
shuaiyuanさんのコメントはいいですし、Pythonでのテストにはpy.testのような既存のフレームワークを使うべきです。 DataFramesの質問に直接回答するには、sc.parallelize
を使用せず、代わりにspark.createDataFrame
を使用して、関数に渡すDataFrameをインスタンス化することをお勧めします。次に、出力にdf.collect()
を呼び出して、出力の行数が期待どおりで、列の値であることを確認できます。
関連する問題
- 1. はユニットテストのアプローチが悪いですか?
- 2. 基本クラスのユニットテスト良いアプローチ
- 3. pySpark:値%%pyspark
- 4. Pyspark:私は次のようなpysparkのデータフレームを持つpysparkのデータフレームから
- 5. ユニットテストのユニットテストですか?
- 6. Pythonのpysparkエラー
- 7. PySparkの設定
- 8. PySparkパッケージのインポート
- 9. Pysparkとのマージ
- 10. pysparkのストラクチャードストリーミング
- 11. pysparkデータフレームのフィルタリング
- 12. pysparkでのフィルタリング
- 13. pysparkのUDFは、
- 14. PySparkログのキャプチャ
- 15. Pyspark +ハイブのアブロテーブル
- 16. PySparkのdatefromparts()
- 17. .join()pysparkの逆
- 18. pysparkのグローバルカウンタ
- 19. pysparkディシジョンツリーのサンプルウェイト
- 20. pysparkのparseException
- 21. カサンドラデータモデルのアプローチ
- 22. Nativescriptタブレイアウトのアプローチ
- 23. メディアギャラリープログラミングのアプローチ
- 24. テストオートメーションのアプローチ
- 25. Eigenfaceのアプローチ
- 26. Akkaフォールトトレランスのアプローチ
- 27. プログラミングコンテストのアプローチ
- 28. PHP OOのアプローチ
- 29. Neo4J POJOのアプローチ
- 30. コードレビューのアプローチ
[this](http://stackoverflow.com/questions/33811882/how-do-i-unit-test-pyspark-programs?rq=1)にチェックを入れましたか? – ShuaiYuan