8

でそれを参照するようにすると、それがデータフレームをキャッシュしてから参照することは可能です(クエリ)には、次のように...私の目標は次のとおりです。?どのように火花データフレームをキャッシュし、別のスクリプト

  1. スクリプト1では、スクリプト2では
  2. DFデータフレーム(DF)
  3. 実行スクリプト1とキャッシュを作成することは、標準的なスパークバイナリを使用しては不可能であるDF

答えて

4

におけるクエリデータ。スパークDataFrameは、それを作成するために使用された特定のSQLContextにバインドされており、その外部からはアクセスできません。

Apache ZeppelinやDatabricksのような、異なるセッションに注入された共有コンテキストを使用するツールがあります。これは、異なるセッションやゲスト言語間で一時テーブルを共有できる方法です。

spark-jobserverおよびApache Igniteを含む他のプラットフォームがあり、分散データ構造を共有する別の方法があります。 Livy serverもご覧ください。

も参照してください:あなたはまた、ファイル/データベースへの実際のデータを保持し、再びそれを読み込むことができShare SparkContext between Java and R Apps under the same Master

0

。 Sparkはこれを行う方法を提供しているため、データをドライバに収集する必要はありません。