2つのSparkコンテキスト間でSpark RDDを共有するには？

私はRMIクラスタを持っています。各RMIサーバには、Sparkコンテキストがあります。異なるSparkコンテキスト間でRDDを共有する方法はありますか？2つのSparkコンテキスト間でSpark RDDを共有するには？

2015-01-13 simafengyun

いいえ、RDDは1つのSparkContextに結び付けられています。一般的な考え方は、Sparkクラスターと、クラスターに何をすべきかを伝える1つのドライバープログラムがあることです。このドライバにはSparkContextがあり、RDDで操作を開始します。

RDDをあるドライバプログラムから別のドライバプログラムに移動する場合は、最初のドライバのディスク（S3/HDFS/...）に書き込んで、もう一方のドライバのディスクから読み込みます。

出典

2015-01-14 23:57:29

Daniel Darabosがすでに述べたように、それは不可能です。 Sparkのすべての分散オブジェクトは、それを作成するために使用された特定のコンテキストにバインドされています（データセットの場合はSQLContext）SparkContext RDDの場合。アプリケーション間でオブジェクトを共有する場合は、共有コンテキストを使用する必要があります（たとえば、spark-jobserver、Livy、またはApache Zeppelinを参照）。 RDDまたはDataFrameはちょうど小さなローカルオブジェクトなので、実際に共有することはあまりありません。

データの共有はまったく別の問題です。特殊なメモリキャッシュ（Apache Ignite）やメモリファイルシステム（Alluxio - 旧Tachyonなど）を使用すると、アプリケーション間の切り替え時のレイテンシを最小限に抑えることができますが、実際には回避することはできません。

出典

2016-03-08 06:52:38 zero323

私の理解では、RDDはデータではありませんが、元のデータから変換/フィルタを介してデータを作成する方法です。

別の考え方ではなく、最終的なデータを共有することです。だから、あなたのような、データ・ストアにRDDを格納します： - HDFS（寄木細工のファイルなど。） - Elasticsearch - （インメモリ）のApacheのIgnite

私は、あなたは、ApacheのIgniteを愛すると思います：https://ignite.apache.org/features/igniterdd.html

アパッチのIgniteは、同じアプリケーション内で、または異なるスパークアプリケーション間のいずれかで、容易に複数のスパークジョブを横切って、メモリ内の状態を共有することを可能にするスパークRDD抽象の実装を提供します。

IgniteRDDが実装され、処理を実行するスパークジョブ内またはスパークワーカーに、またはそれ自身のクラスタ内のいずれかで配備することができる分散型のIgniteキャッシュ、上図のようになります。

（私はあなたが探しているものを見つけるために彼らのドキュメントを掘るしましょう。）

出典

2018-02-09 18:35:50

2つのSparkコンテキスト間でSpark RDDを共有するには？

答えて

関連する問題