2015-09-07 4 views

答えて

6

getStorageLevel.useMemoryをRDDで呼び出して、データセットがメモリ内にあるかどうかを調べることができます。たとえば:

scala> val rdd = sc.parallelize(Seq(1,2)) 
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at parallelize at <console>:21 

scala> rdd.getStorageLevel.useMemory 
res9: Boolean = false 

scala> rdd.cache() 
res10: rdd.type = ParallelCollectionRDD[1] at parallelize at <console>:21 

scala> rdd.getStorageLevel.useMemory 
res11: Boolean = true 
+0

は答えをいただき、ありがとうございます。 Pythonにも同様の機能がありますか? – StarLord

+0

そうだと思いますが、Python APIを確認してください。 –

+0

私がどこにいるかも知りませんでしたら、私を助けてください – StarLord

3

@Arnab、

あなたは、Pythonで関数を見つけましたか?ここ
は、データフレームDFのための例です:

DF.cache() 
print DF.is_cached 

は、この情報がお役に立てば幸いです。この方法は、すべての永続RDDSを見つけるために使用することができ、次のJavaとScalaで
ラム

+1

何の例ですか? DataFrameクラスにはこのようなメソッドはありません。 –

+0

is_cachedはメソッドではなく、DataFrameクラスの属性です。 – cftarnas

1

、この方法を利用できないように https://spark.apache.org/docs/2.0.2/api/java/org/apache/spark/SparkContext.html#getPersistentRDDs()

ルックス:ここ sparkContext.getPersistentRDDs()
では、ドキュメントへのリンクがあります
https://issues.apache.org/jira/browse/SPARK-2141
しかし、一つは、この短期的なハックを使用することができます:まだのpythonインチsparkContext._jsc.getPersistentRDDs()の項目()

ありがとう。スパーク(スカラ)2.1.0以降開始

0

、この次のようにデータフレームをチェックすることができます。

dataframe.storageLevel.useMemory 
関連する問題