私は、Spark 1.6のいくつかのコードをSpark 2.0の新しいものを使ってSpark 2.0に移植しようとしています。まず、Spark 2.0のcsvリーダーを使用したいと思います。ところで、私はpysparkを使用しています。Spark 2.0 csvパーティション数(PySpark)
「古い」textFile
機能では、パーティションの最小数を設定できます。例:
df = spark.read.csv('/home/xpto/text.csv', header=True)
...
をしかし、私は
minPartitions
を設定する方法を見つけることができませんでした:
今
file= sc.textFile('/home/xpto/text.csv', minPartitions=10)
header = file.first() #extract header
data = file.filter(lambda x:x !=header) #csv without header
...
、スパーク2.0で私が直接csvファイルを読むことができます。
私のコードのパフォーマンスをテストするために必要です。
Thxを、 フレッド
'coalesce()'はパーティションの数を減らすためにのみ使用できます。 'coalesce()'はパーティションの数を増やしません。そのためには、 'repartition()'を使ってspark workerの周りのデータシャッフルのコストを支払う必要があります。 – DavidF