Sparkを使用してHDFSに配置された非構造化ファイルの処理に関する質問がありました。スパークプロセス非構造化ファイル
このシナリオでは、1つのHDFSフォルダに多数のファイルがあります。そのため、Sparkアプリケーションはその特定のHDFSフォルダ内のすべてのファイルを読み取り、処理します。
df = spark.read.text('/user/tester/datafiles')
:私たちは、ファイルを読み込み、データフレームの中に配置するために、次のコードを使用した場合HDFSフォルダは、ファイルの多くが含まれており、各ファイルが巨大なサイズを持っている場合は、ここに私の質問は、それはメモリの問題のうちのヒットかもしれませんさ上記のシナリオのようにHDFSファイルを処理するためのベストプラクティスまたはアプローチは何ですか?一度にすべてのファイルを読み込むのではなく、ファイルごとにループして処理する必要がありますか?
ありがとうございました。
ファイルが128 MBのブロックとしてhdfsに格納されていて、2番目のものが特定のメモリで処理できる量のメモリしかフェッチしない場合は、何もする必要はないと思われます。そうでなければ、パーティション分割のオプションがあります –