Spark RDD：並列操作のためにデータを共有する方法

-2

スパークについての私の理解は、RDDでreduce操作を実行すると、異なるノードによって並列に操作され、結果がマスターノードによって蓄積されることです。これらの操作は並行して実行されるため、結果は全体として利用可能であり、処理中に実行される更新に依存することはできません。たとえば、共有キャブアプリケーションを設計していると、トリップの開始位置と実際の位置異なるキャブ。私は簡単に旅行開始ポイントから各タクシーの距離を取得するためにスパークSQLを実行することができます。一度、私はこれを持って、私は最短距離のタクシーを選び、それを割り当てる必要があります。今ここで私たちはタクシーが4回以上の旅行を取ることができないという条件があります。私の分析は並行して実行されているので、すでにキャブがフルキャパシティであるかどうかはわかりません。では、これを検証する最良の方法は何ですか？共有変数を持つことができますか、データベースに割り当てを保存する必要があります。パフォーマンスはスパークでのような何の機能はありませんキーSpark RDD：並列操作のためにデータを共有する方法

出典

2017-11-30 Piyush

で、あなたはより多くの詳細についてはApacheのIgnite を利用することができます私たちは、今のよう点火するためにジャンプすることはできませんリンク https://apacheignite.readme.io/docs

出典

2017-11-30 06:59:07

を参照してください。私はそれがスパークでは不可能であることを知っています、そして、それが理由です、私たちはスパークの外にそれを保管する必要があります。私の質問は、パフォーマンスに与える影響が最も少ないこのようなシナリオのベストプラクティスです。 – Piyush

Spark RDD：並列操作のためにデータを共有する方法

答えて

関連する問題