PySparkを使用してsparkデータフレームに欠損値を埋めようとしています。しかし、それを行う適切な方法はありません。私の仕事は、前の行または後の行に関していくつかの行の欠損値を埋めることです。具体的には、ある行の0.0の値を前の行の値に変更し、ゼロ以外の行では何もしません。私はsparkのWindow関数を見ましたが、max、min、meanのような単純な操作しかサポートしていませんが、これは私の場合には適していません。指定されたWindow上でユーザ定義の関数をスライドさせることができれば最適です。 誰か良いアイデアはありますか?Sparkデータフレームに欠損値を入力してください
2
A
答えて
1
Spark window APIを使用して前の行データにアクセスします。時系列データを扱う場合は、missing data imputation
のthis packageも参照してください。
+1
@wayag答えがあなたのために働く場合は、答えを受け入れる:) –
関連する問題
- 1. パンダを使用して別のデータフレームから1データフレームの欠損値を入力してください
- 2. Tableau最新の値で欠損値を入力してください
- 3. oracle speicific欠損値の行を挿入してください
- 4. パンダのデータフレームの列を比較し、欠損値を埋めてください
- 5. csvファイルに欠損値を指定してください
- 6. 2つの同様のデータフレームを比較し、1つのデータフレームの欠損値を埋めてください
- 7. データフレームの連続値を入力してください
- 8. 欠損値の入力ファイルを扱う
- 9. 列自体と日付で決まる列の欠損値を入力してください
- 10. cURLスクリプト$ urlに入力値を入力してください
- 11. パンダのデータフレームの欠損値と四半期データ欠損のデータ
- 12. sparkが欠落している入力ファイルを無視する方法を教えてください。
- 13. 欠損値を持つデータフレームの整列
- 14. 別のデータフレームの列に基づいてデータフレーム内の空の値を入力してください
- 15. Pythonで欠損値代入
- 16. 別のdata.frameからdata.frameの欠損値を埋めてください
- 17. データフレームに欠損値が重複している値を削除する
- 18. 2行分のデータフレームを入力しないでください
- 19. リストに欠損値を挿入する
- 20. Python:データフレームに欠落している日時の値を入力して入力しますか?
- 21. フォームに数値を動的に入力してください
- 22. QRコードに値を入力せずに入力してください
- 23. JavaScript:値を入力してテキストを入力してください
- 24. jsonfileキーを入力して値を入力してください
- 25. パラメータ値以外の値を入力してください
- 26. 入力に値を入れてくださいC#
- 27. データベースに正確なデータ値を入力してください
- 28. 固定配列に値を入力してください
- 29. Codeigniterのデータベースの値をフォームに入力してください
- 30. コントローラにフォームの値を入力してください
サンプルデータ、試したコード、予想される出力を共有してください。 – mtoto
「前の行」はどのように定義しますか?どんなソート? –