NYC taxi Datasetの200Gbをプロットしたいと思います。 私は、データシートを使ってパンダのデータフレームをプロット/ビジュアル化することができました。 しかし、PySparkデータフレーム(各ノードで8Gb RAMを備えた4ノードクラスタを使用)を使用して、それを実現しました。私ができることは、を使用することです。 toPandas() PySparkデータフレームをPandasデータフレームに変換する方法。しかしこれは、ドライバノード上のRAMにデータフレーム全体をロードします(これは、RAM全体がデータセット全体に適合するためには不十分です)。そのため、Sparkの分散電源は使用しません。データシートをPySpark DataFrameで使用する
また、ピックアップとロングオフのlongtitudesと緯度だけを取得することは、約30GBにデータフレームをもたらすことを知っています。しかし、それは問題を変えない。
私はGitHubのがここDatashader issue opened私は代替としてDASKを見てきましたが、それは変換PySparkのデータフレームを思わ
datashader上の問題を作成しました - > DASKのデータフレームがまだサポートされていません。
ありがとうございます。
はい私はパケと組み合わせてかなり素晴らしいダスクに移動しました! Sparkのユーザーが直接データセッダを利用できるように、Pysparkデータフレームのサポートがあることを願っています! – filipyoo