RDDまたはデータフレームがキャッシュされているかどうかを確認するにはどうすればよいですか？

データフレームdf1を作成しました。私はこれをdf1.cache（）を使ってキャッシュしました。これがキャッシュされているかどうかをどのように確認できますか？キャッシュされたRDDやデータフレームをすべて見ることができる方法もあります。RDDまたはデータフレームがキャッシュされているかどうかを確認するにはどうすればよいですか？

出典

2015-09-07 StarLord

getStorageLevel.useMemoryをRDDで呼び出して、データセットがメモリ内にあるかどうかを調べることができます。たとえば：

scala> val rdd = sc.parallelize(Seq(1,2)) 
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at parallelize at <console>:21 

scala> rdd.getStorageLevel.useMemory 
res9: Boolean = false 

scala> rdd.cache() 
res10: rdd.type = ParallelCollectionRDD[1] at parallelize at <console>:21 

scala> rdd.getStorageLevel.useMemory 
res11: Boolean = true

出典

2015-09-07 09:08:05

は答えをいただき、ありがとうございます。 Pythonにも同様の機能がありますか？ – StarLord

そうだと思いますが、Python APIを確認してください。 –

私がどこにいるかも知りませんでしたら、私を助けてください – StarLord

@Arnab、

あなたは、Pythonで関数を見つけましたか？ここ
は、データフレームDFのための例です：

DF.cache() 
print DF.is_cached

は、この情報がお役に立てば幸いです。この方法は、すべての永続RDDSを見つけるために使用することができ、次のJavaとScalaで
ラム

出典

2016-07-11 18:54:45 user6296218

何の例ですか？ DataFrameクラスにはこのようなメソッドはありません。 –

is_cachedはメソッドではなく、DataFrameクラスの属性です。 – cftarnas

、この方法を利用できないように https://spark.apache.org/docs/2.0.2/api/java/org/apache/spark/SparkContext.html#getPersistentRDDs()

ルックス：ここ sparkContext.getPersistentRDDs（）
では、ドキュメントへのリンクがあります
https://issues.apache.org/jira/browse/SPARK-2141
しかし、一つは、この短期的なハックを使用することができます：まだのpythonインチsparkContext._jsc.getPersistentRDDs（）の項目（）

ありがとう。スパーク（スカラ）2.1.0以降開始

出典

2017-10-17 03:33:52 bmc

、この次のようにデータフレームをチェックすることができます。

dataframe.storageLevel.useMemory

出典

2018-03-09 07:29:11

RDDまたはデータフレームがキャッシュされているかどうかを確認するにはどうすればよいですか？

答えて

関連する問題