Hadoop - ファイルを行数で分割する

-1

私は、hdfs上に320000000行のファイルを持っています。これを最大100000000個の行を含む4つのファイルに分割したいと考えています。ファイルを行数で分割するにはどうすればよいですか？Hadoop - ファイルを行数で分割する

私は11で再パーティションしようとしましたが、パーティションが大きすぎます。コマンドで解決できますか？またはScalaの別の方法でスパークしますか？

2016-11-24 user1997656

まあ......いいえ101行のファイルを最大10行の11ファイルに分割する「コマンド」はありません。 –

最初にファイルを作成し、他に処理する必要がなく、ファイルを別のファイルに分割したい場合は、これはSparkの使い方ではありません。単にファイルに対して些細なスクリプトを実行してください。 Unixではsplitコマンドが実行しますhttp://man7.org/linux/man-pages/man1/split.1.html –

ええ、このファイルは自分のhdfs上にあります。通常のunixコマンドは実行できませんhdfsコマンド – user1997656

ファイルを読み取り、11ファイルに書き込むことができます。

出典

2016-11-24 09:43:50 Wang

普通のファイルであれば簡単でしたが、hdfsファイルに必要です – user1997656

Hadoop - ファイルを行数で分割する

答えて

関連する問題