2017-07-19 1 views
-1

私はサイズが10MBのテキストファイルを持っていて、テキストファイルを2つの等しいサイズ(5MBそれぞれの)パーティションは、サイズごとにスケーラで分割されます。サイズでテキストファイルを分割する方法はありますか?事前に私はサイズが10MBのテキストファイルを持っており、テキストファイルを2つの同じサイズ(各5MB)のパーティションに分割したい

おかげ

+1

これまでに何を試しましたか?可能であれば、コードまたはそのセグメントを含めてください。 – JoeG

答えて

1

rdd.repartition(2)は、それはおそらくあなたに正確に等しいサイズを取得できませんが、十分に近いだろうデフォルトのハッシュパーティショナを使用しますが、2つのパーティションにデータをシャッフルします。

10MBはすでに非常に小さいですが、私はあまりファイルを分割することについて心配しません。

ファイルを分割するのが目的の場合は、独自のプログラムを作成する代わりにコマンドラインツールsplitを使用することを検討してください。

+0

ありがとうございます。しかし、もし私が必要とするサイズで分割したいのであれば、私が受け取ったファイルのサイズと、そのファイル上のパーティションのサイズを2MBにする必要があります。それは動的にファイルサイズを設定できますか? – Prak

関連する問題