2017-09-03 9 views
0

NYC taxi Datasetの200Gbをプロットしたいと思います。 私は、データシートを使ってパンダのデータフレームをプロット/ビジュアル化することができました。 しかし、PySparkデータフレーム(各ノードで8Gb RAMを備えた4ノードクラスタを使用)を使用して、それを実現しました。私ができることは、を使用することです。 toPandas() PySparkデータフレームをPandasデータフレームに変換する方法。しかしこれは、ドライバノード上のRAMにデータフレーム全体をロードします(これは、RAM全体がデータセット全体に適合するためには不十分です)。そのため、Sparkの分散電源は使用しません。データシートをPySpark DataFrameで使用する

また、ピックアップとロングオフのlongtitudesと緯度だけを取得することは、約30GBにデータフレームをもたらすことを知っています。しかし、それは問題を変えない。

私はGitHubのがここDatashader issue opened私は代替としてDASKを見てきましたが、それは変換PySparkのデータフレームを思わ

datashader上の問題を作成しました - > DASKのデータフレームがまだサポートされていません。

ありがとうございます。

答えて

2

確かに、(分散した)pysparkデータフレームをDaskデータフレームに変換する直接の方法はありません。しかし、Daskは独自の実行エンジンであり、必要に応じて完全にスパークを回避することができます。使用して、その集計を計算する方法を知っている。これはdatashaderに特に適しています

​​

、:DASKは、次のようになりますどの、スパークと同様に、このようなS3としてリモートデータソースからCSVからのデータセットをロードすることができますDaskを使用すると、メモリよりも大きなデータセットを使用することができます。

datashader examplesには、DaskとNYCの両方のタクシーの例が含まれています(残念なことに、両者は一緒ではありません)。

+0

はい私はパケと組み合わせてかなり素晴らしいダスクに移動しました! Sparkのユーザーが直接データセッダを利用できるように、Pysparkデータフレームのサポートがあることを願っています! – filipyoo

0

これは私がスパークして、このようなデータを視覚化するための最良の方法は、ツェッペリンを使用することであると言うでしょうDASKは異なる何か..

です。 https://zeppelin.apache.org/をインストールするのは簡単です。 sparkで使用できるデフォルトの視覚化があります。見てみな。

関連する問題