AWS EC2でSpark 1.6.1を使用して、60GBのメモリと32個のコアを持つ1台のマシンを使用しています。私のデータは、多数のレコードを含んでいSPARK:1つの強力なマシン対。複数の小さなマシン
、私は次のような単純なスキーマを持つデータフレームを処理したいと思い、それが10億(10億)レコードがあります。私はいくつかの高価なチェーンをしています
userID: Long
phrase: String
timestamp: Timestamp
をなどGROUPBY、ソート、フィルタ...のような操作
これらの操作が大シャッフルにリードしているが書き込み、読み込み、データフレームをキャッシュするか、それは多くを助けていない再パーティション。
私は、マシンがメモリに完全なデータをロードすることが可能であることを知って、なぜこれが起こっている理解するのに困難を発見しています。
私はスパークUI上のエグゼキュータ]タブをクリックすると、私は次を参照してください。
これは、私は、単一の強力なマシンを使用するときに参照するには、通常の図であり、あるいは私は私のスパークを設定して逃しましたクラスタ?
EC2上でスパークの最適な構成であるかについての推奨事項はありますか?
おかげ
あなたの質問はスパークツェッペリンのノートよりも。あなたが質問を間違って読んだら、その編集を元に戻すことは大歓迎です。 –
私は@ cricket_007に同意します、ありがとう – Rami