2016-07-27 10 views
-1

私はスパークとそれに関連するコンセプトに慣れていませんので、私と親切で私の疑問を解決するのを手伝ってください。私はあなたに私の質問を理解するための例を与えます。sparkの1つのパーティション内に並列操作を作成することは可能ですか?

私はその文字列に= 3 []。長さとさせて頂きます

Tuple2 <Integer,String[]> 

のようなタプルが含まれている1 javaPairRDD「RDD」を持っているが、それはキー以外の3つの要素が含まれていることを意味、私は何をしたい更新することです3つのRDDおよび3つの操作を使用するベクトルの各要素、「R1」および「操作1」は第1の要素を修正するために使用され、「R2」および「操作2」は第2の要素を修正するために使用され、「R3」および「操作3」は

R1、R2およびR3は、要素の新しい値を提供するRDDです

sparkはデータ(この例では "rdd")を多くのパーティションに分けることは知っていますが、私は何を求めているのですか?同じパーティションで異なる操作を同時に行うことは可能ですか?

私の例によれば、iは3つの事業を展開しているので、それは私が代わりにそれを動作させるために一つだけを取るのと同時に、3つのタプルを取ることができることを意味します

私はそれが欲しいの治療を:(T = 2で

*tuple1=use operation2 to modify the element 2 

*tuple2=use operation3 to modify the element3 

*tuple3=use operation1 to modify the element 1 

:Tは、T = 1で

at t=0: 
*tuple1=use operation1 to modify the element 1 

*tuple2=use operation2 to modify the element2 

*tuple3=use operation3 to modify the element 3 

)時間を意味

*tuple1=use operation.3 to modify the element 3 

*tuple2=use operation1 to modify the element1 

*tuple3=use operation2 to modify the element 2 

3つの最初のタプルを更新仕上げた後、私は

..ようにそれらを扱うために、同じpartionから他の人(3組)を取り、それが私の心を交差させばかり考えだ親切にしてください、それが可能かどうか知りたいのですが、ご協力いただきありがとうございます。

+0

'mapPartitions'を見てください。少し助けてくれるかもしれません。 – Alec

+0

私はあなたがsparkのドキュメントとコンセプトを読むのにもっと時間を要すると思っていますので、私はdownvotedしました。この状態では、この質問はほとんど意味がありません。 – C4stor

答えて

1

スパークは実行の順序を保証しません。

RDDの個々の要素をどのように変換するかを決め、Sparkがすべての要素に最も効率的と判断して変換を適用する責任を負います。

あなたの環境で利用可能なエグゼキュータ(スレッドまたはサーバまたはその両方)の数に応じて、Sparkは実際にはできるだけ多くのタプルを同時に処理します。

+0

@ TomaszBłachutに心から感謝します。すべてがコア(実行者)の数に依存していることはとても分かりましたが、同じコアが同時に多くのタプルを扱うことができると考えていましたが、それは意味がありません、bczスパークはすでにこれを行います – ham

1

まずはSparkコミュニティにようこそ。

@TomaszBłachutの回答によれば、Sparkの実行コンテキストは、個々の処理単位としてのノード(例:コンピューティングPC)を特定するのではなく、コアを識別します。そのため、ノード全体ではなく、22コアXeon上の2つのコアに1つのジョブを割り当てることができます。

スパークECは効率とパフォーマンスに関してノードを計算単位とみなしますが、さまざまなパフォーマンスのノード間で大きなジョブを分割したり、頻繁に遅くなったり失敗したりする場合は、ブラックリストに入れることが適切です。

+0

非常に@ sebszyllerありがとう、私はすべてコア(executers)の数に依存する非常によく理解していますが、私は多分同じコアが同じで多くのタプルを扱うことができると思っていたあなたの答えの後には、私はそれが意味がないと思う、bczスパークはすでにこれを行います。 – ham

関連する問題