2017-11-30 5 views
-2

スパークについての私の理解は、RDDでreduce操作を実行すると、異なるノードによって並列に操作され、結果がマスターノードによって蓄積されることです。これらの操作は並行して実行されるため、結果は全体として利用可能であり、処理中に実行される更新に依存することはできません。たとえば、共有キャブアプリケーションを設計していると、トリップの開始位置と実際の位置異なるキャブ。私は簡単に旅行開始ポイントから各タクシーの距離を取得するためにスパークSQLを実行することができます。一度、私はこれを持って、私は最短距離のタクシーを選び、それを割り当てる必要があります。今ここで私たちはタクシーが4回以上の旅行を取ることができないという条件があります。私の分析は並行して実行されているので、すでにキャブがフルキャパシティであるかどうかはわかりません。では、これを検証する最良の方法は何ですか?共有変数を持つことができますか、データベースに割り当てを保存する必要があります。パフォーマンスはスパークでのような何の機能はありませんキーSpark RDD:並列操作のためにデータを共有する方法

答えて

0

で、あなたはより多くの詳細についてはApacheのIgnite Ignite for Spark を利用することができます私たちは、今のよう点火するためにジャンプすることはできませんリンク https://apacheignite.readme.io/docs

+0

を参照してください。私はそれがスパークでは不可能であることを知っています、そして、それが理由です、私たちはスパークの外にそれを保管する必要があります。私の質問は、パフォーマンスに与える影響が最も少ないこのようなシナリオのベストプラクティスです。 – Piyush

関連する問題