0
は、私は私のクラスタ上のいくつかの重い丸太をしました、私は次のパーティションスキーマでそれらのすべてをparquetedました2017/07/12から2017/08/10の間に効果的に行う方法はありますか?または、パーティションを1つずつ読み込むために全日ループする必要がありますか?選択寄木細工は
おかげで、
は、私は私のクラスタ上のいくつかの重い丸太をしました、私は次のパーティションスキーマでそれらのすべてをparquetedました2017/07/12から2017/08/10の間に効果的に行う方法はありますか?または、パーティションを1つずつ読み込むために全日ループする必要がありますか?選択寄木細工は
おかげで、
pysparkにファイルをロードするときには、いくつかの正規表現を使用することができます。
input_path = ",".join(["PARTITION_YEAR=2017/PARTITION_MONTH=07/PARTITION_DAY=" + str(x) for x in range(12, 32)]) \
+ ",".join(["PARTITION_YEAR=2017/PARTITION_MONTH=08/PARTITION_DAY=" + str(x) for x in range(1, 11)])
または使用して:あなたはまた、カンマで区切られたパスのリストを生成することができ
input_path = "PARTITION_YEAR=2017/PARTITION_MONTH=0{7/PARTITION_DAY={1[2-9],[2-3]*},8/PARTITION_DAY={0[1-9],10}}"
df = spark.read.parquet(input_path)
日付:
import datetime as dt
d1 = dt.date(2017,7,12)
d2 = dt.date(2017,8,10)
date_list = [d1 + dt.timedelta(days=x) for x in range(0, (d2 - d1).days + 1)]
input_path = ",".join(["PARTITION_YEAR=2017/PARTITION_MONTH=%02d/PARTITION_DAY=%02d" % (d.month, d.day) for d in date_list])
日付を使用したソリューションはかなりクールです、ありがとうございます! :) –
https://stackoverflow.com/questions/33650421/reading-dataframe-from-partitioned-parquet-file – pasha701