parquet

    5

    2答えて

    私はこのトピックに関する多くの情報を見つけることができませんでしたが、データフレームを使用して寄木張りファイルを読み込み、10ブロックスパークは自然に10パーティションを作成します。しかし、データフレームがファイルを読み込んで処理するときには、大きなデータ対パーティション比を処理しません。なぜなら、ファイルを圧縮解除して処理すると、ブロックサイズが大きくなり、パーティションも大きくなるからです。

    13

    1答えて

    寄せ木ファイルdataは、そのdate列に分割して書き込まれた場合、我々は同じようなディレクトリ構造を取得:パーティションdate=2はなど、シェルまたはファイルブラウザ経由(寄せ木ユーティリティの関与なしに削除された場合 /data _common_metadata _metadata _SUCCESS /date=1 part-r-xxx.g