-1
私は、hdfs上に320000000行のファイル を持っています。これを最大100000000個の行を含む4つのファイルに分割したいと考えています。 ファイルを行数で分割するにはどうすればよいですか?Hadoop - ファイルを行数で分割する
私は11で再パーティションしようとしましたが、パーティションが大きすぎます。コマンドで解決できますか?またはScalaの別の方法でスパークしますか?
私は、hdfs上に320000000行のファイル を持っています。これを最大100000000個の行を含む4つのファイルに分割したいと考えています。 ファイルを行数で分割するにはどうすればよいですか?Hadoop - ファイルを行数で分割する
私は11で再パーティションしようとしましたが、パーティションが大きすぎます。コマンドで解決できますか?またはScalaの別の方法でスパークしますか?
まあ......いいえ101行のファイルを最大10行の11ファイルに分割する「コマンド」はありません。 –
最初にファイルを作成し、他に処理する必要がなく、ファイルを別のファイルに分割したい場合は、これはSparkの使い方ではありません。単にファイルに対して些細なスクリプトを実行してください。 Unixではsplitコマンドが実行しますhttp://man7.org/linux/man-pages/man1/split.1.html –
ええ、このファイルは自分のhdfs上にあります。通常のunixコマンドは実行できませんhdfsコマンド – user1997656