私は約100万行のSparkデータフレームを持っています。私はpysparkを使用しており、データフレームの各列のscipyライブラリからbox-cox変換を適用する必要があります。しかし、box-cox関数は入力として1-d numpy配列しか許さない。これを効率的に行うにはどうすればよいですか?スパークデータフレーム列をNumpy配列に効率的に変換する方法はありますか?
numpyアレイはsparkで配布されていますか、またはドライバプログラムが実行されている単一ノードにすべての要素を収集していますか?
suppose df is my dataframe with column as C1
はその後、私は、Sparkでこの
stats.boxcox(df.select("C1"))
Spark DataFrameをお持ちで、Numpyを使用して個々の列を処理できるという利点がある場合はほとんどありません。基本的には、あなたのデータは、Pandasに変換することでローカルで処理できるだけの十分な(クリーンな、集約された)データであるか、Numpyだけでは一般的にできることではない分散データで動作する方法が必要です。 – zero323