Pysparkのデータフレーム内の列の別個の値を取得しようとしていますが、それらの値をリストに保存すると、リストに「Row(no_children = 0) " しかし、私は自分のコードの別の部分のためにそれを使用するので、値だけが必要です。PysparkのDataframeの異なる値をリストに変換する
ので、理想的にのみALL_VALUES = [0,1,2,3,4]
all_values=sorted(list(df1.select('no_children').distinct().collect()))
all_values
[Row(no_children=0),
Row(no_children=1),
Row(no_children=2),
Row(no_children=3),
Row(no_children=4)]
これは、実行するために15secsを周りにかかる通常のことですか?
ありがとうございました!
ファンタスティック、このオプションは高速です。コマンドラインはWARN TaskSetManagerを出力しますが、ステージ849には非常に大きなサイズのタスク(165 KB)が含まれています。推奨されるタスクの最大サイズは100 KBです。 – Learner
これは通常、巨大なリストがドライバからエグゼキュータに転送されたとき、またはデータの分割のために発生します。 Plsはこれをチェックします、https://stackoverflow.com/questions/28878654/spark-using-python-how-to-resolve-stage-x-contains-a-task-of-very-large-size-x – Suresh
とにかく、この答えがあなたを助けてくれることを願ってあなたがそれでいいなら、それを受け入れることができますか? – Suresh