に持続しません:パイソン&スパーク:DATAFRAME書き込みは、私は、ローカルファイルシステムへの私のデータフレームを作成したいファイルシステム
path = "/tmp/test"
df = spark.sql(select_str)
df.write.parquet(path, mode="overwrite", compression="snappy")
コードがエラーなしで実行されますが、私はtmp
に見たときに何test
がないと私は戻ってpyarrow寄木細工にそれを読みたい場合も:
IOError: Passed non-file path: /tmp/test
:
parquet = pq.ParquetDataset(path)
私はエラーを取得します
同じことが起こるhdfs://tmp/test
ここで私は何が分からないのですか?
EDIT
私はそれを使用する前に、最初の実際のファイルを作成してみました。そこで/tmp/parquet.parquet
を作成しました。ファイルを読み込めるようになりましたが、ファイルは常に空です。だから、この作文はうまくいきません。
EDIT 2
スパーク構成:
spark = SparkSession.builder \
.master("yarn") \
.appName("my_app") \
.config("spark.driver.bindAddress", "0.0.0.0") \
.config("spark.driver.host", host) \
.config("spark.driver.port", port) \
.config("spark.driver.memory", "4G") \
.config("spark.executor.memory", "8G") \
.config("spark.blockManager.port", portBlockManager) \
.enableHiveSupport() \
.getOrCreate()
これは同じ結果をもたらします – Mulgard