パーケットファイルのスキーマを取得するために使用できるPythonライブラリはありますか?Pythonの火花データフレームにファイルをロードせずに寄木張りファイルのスキーマを取得しますか?
現在、パーケットファイルをSparkのdataframeにロードし、データフレームからスキーマを取得してアプリケーションのUIに表示しています。しかし、スパークコンテキストを初期化してデータフレームをロードし、データフレームからスキーマを取得することは時間のかかる作業です。スキーマを取得するための代替方法を探しています。
はファイルHDFS内かどうかがわかり、ソースからビルドする必要があるので、これだけで昨日のコードをマージ? –
Sparkは、スキーマを取得するためにデータセット全体をロードする必要はありません。寄せ木張りのファイルからスキーマを取得するのは即座に行われます。 –
@ティガゴ・バルディム - はい、HDFSのみです – Saran