2016-11-24 11 views
-1

私は、hdfs上に320000000行のファイル を持っています。これを最大100000000個の行を含む4つのファイルに分割したいと考えています。 ファイルを行数で分割するにはどうすればよいですか?Hadoop - ファイルを行数で分割する

私は11で再パーティションしようとしましたが、パーティションが大きすぎます。コマンドで解決できますか?またはScalaの別の方法でスパークしますか?

+0

まあ......いいえ101行のファイルを最大10行の11ファイルに分割する「コマンド」はありません。 –

+0

最初にファイルを作成し、他に処理する必要がなく、ファイルを別のファイルに分割したい場合は、これはSparkの使い方ではありません。単にファイルに対して些細なスクリプトを実行してください。 Unixではsplitコマンドが実行しますhttp://man7.org/linux/man-pages/man1/split.1.html –

+0

ええ、このファイルは自分のhdfs上にあります。通常のunixコマンドは実行できませんhdfsコマンド – user1997656

答えて

0

ファイルを読み取り、11ファイルに書き込むことができます。

+0

普通のファイルであれば簡単でしたが、hdfsファイルに必要です – user1997656

関連する問題