0
spark
およびscala
を初めて使用しています。私は以下の要件があります。私は、サブディレクトリを持つパスの下のすべてのファイルを処理する必要があります。私は、すべてのファイルを処理するためのfor-loopロジックを記述する必要があると思います。パス内の複数のファイルにまたがるスケーラループ
は、私の場合の例です。
src/proj_fldr/dataset1/20170624/file1.txt
src/proj_fldr/dataset1/20170624/file2.txt
src/proj_fldr/dataset1/20170624/file3.txt
src/proj_fldr/dataset1/20170625/file1.txt
src/proj_fldr/dataset1/20170625/file2.txt
src/proj_fldr/dataset1/20170625/file3.txt
src/proj_fldr/dataset1/20170626/file1.txt
src/proj_fldr/dataset1/20170626/file2.txt
src/proj_fldr/dataset1/20170626/file3.txt
src/proj_fldr/dataset2/20170624/file1.txt
src/proj_fldr/dataset2/20170624/file2.txt
src/proj_fldr/dataset2/20170624/file3.txt
src/proj_fldr/dataset2/20170625/file1.txt
src/proj_fldr/dataset2/20170625/file2.txt
src/proj_fldr/dataset2/20170625/file3.txt
src/proj_fldr/dataset2/20170626/file1.txt
src/proj_fldr/dataset2/20170626/file2.txt
src/proj_fldr/dataset2/20170626/file3.txt
私はSRC
loop (proj_fldr
loop(dataset
loop(datefolder
loop(file1 then, file2....))))
これらのファイルはHDFSまたはローカルにありますか? – philantrovert
https://stackoverflow.com/questions/24029873/how-to-read-multiple-text-files-into-a-single-rdd –