背景 - さまざまなファイルタイプ(csvまたはparquet)をpysparkに読み込もうとしていますが、ファイルタイプを決定するプログラムを作成する作業があります。ディレクトリであるHDFSの "ファイル"
ここでは、寄木細工のファイルは常にディレクトリであり、寄木細工のファイルはHDFSのディレクトリとして表示されているようです。
また、ディレクトリであるcsvファイルがあります。ファイル名はディレクトリ名であり、ディレクトリには複数のパーツファイルが含まれています。どのようなプロセスがこれをしますか?
なぜいくつかのファイル - 「ファイル」といくつかのファイル「ディレクトリ」はありますか?
ありがとうございます!それが、Mapreduceがディレクトリとしてファイルを吐き出すという、私が見逃していたものです。私はMRの実際の成果を決して見ていないほど長い間統治されてきました。私たちのプログラムは非常に一般的になるように設計されているので、そのためのケースを含める必要がありますが、今ではこの異なるタイプがどこから来ているのか分かります。 – RDS