私はサイズが10MBのテキストファイルを持っていて、テキストファイルを2つの等しいサイズ(5MBそれぞれの)パーティションは、サイズごとにスケーラで分割されます。サイズでテキストファイルを分割する方法はありますか?事前に私はサイズが10MBのテキストファイルを持っており、テキストファイルを2つの同じサイズ(各5MB)のパーティションに分割したい
おかげ
私はサイズが10MBのテキストファイルを持っていて、テキストファイルを2つの等しいサイズ(5MBそれぞれの)パーティションは、サイズごとにスケーラで分割されます。サイズでテキストファイルを分割する方法はありますか?事前に私はサイズが10MBのテキストファイルを持っており、テキストファイルを2つの同じサイズ(各5MB)のパーティションに分割したい
おかげ
rdd.repartition(2)
は、それはおそらくあなたに正確に等しいサイズを取得できませんが、十分に近いだろうデフォルトのハッシュパーティショナを使用しますが、2つのパーティションにデータをシャッフルします。
10MBはすでに非常に小さいですが、私はあまりファイルを分割することについて心配しません。
ファイルを分割するのが目的の場合は、独自のプログラムを作成する代わりにコマンドラインツールsplit
を使用することを検討してください。
ありがとうございます。しかし、もし私が必要とするサイズで分割したいのであれば、私が受け取ったファイルのサイズと、そのファイル上のパーティションのサイズを2MBにする必要があります。それは動的にファイルサイズを設定できますか? – Prak
これまでに何を試しましたか?可能であれば、コードまたはそのセグメントを含めてください。 – JoeG