sparklyrを使用してDataFramesのメモリ使用量を表示する方法は？

ローカルのR環境にあるオブジェクトのメモリ使用量を一覧表示するcode snippetと同様に、Spark接続で使用できるDataFramesのメモリを表示する同様のコマンドがありますか？例えば。 src_tbls(sc)と似たようなものは、現在はすべてのDataFramesのみを表示しますが、メモリ使用率は表示しません。sparklyrを使用してDataFramesのメモリ使用量を表示する方法は？

出典

2017-10-26 Alex

まず、Sparkで使用されるデータ構造はデフォルトでは怠惰だということを覚えておく必要があります。キャッシュされていない限り、データに関連するストレージオーバーヘッドはありません。キャッシュ自体は一時的です - StorageLevelに応じて、データは破棄される可能性があります。障害の結果として失われるか、ノードが廃止されます。

また、SQLに圧縮されたカラム型ストレージを使用することを覚えておく必要があります。そのため、メモリの使用率はデータの分散の影響を受ける可能性があります。

オペレーティングシステムのメモリ使用量に関心がある場合は、GangliaやMuninのような適切な監視ソリューションを使用してください。

つSparkContextを使用して、現在のステータスに関する情報にアクセスすることができると述べていること：

sc <- spark_connect(...) 

sc %>% 
    spark_context %>% 
    invoke("getRDDStorageInfo")

または照会スパークUIによって：

url <- sc %>% spark_context %>% invoke("uiWebUrl") %>% invoke("get") 

browseURL(paste(url, "storage", sep="/"))

またはREST API：

app_id <- sc %>% spark_context %>% invoke("applicationId") 
httr::GET(paste(
    url, "api", "v1", "applications", app_id, "storage", "rdd", sep="/" 
))

出典

2017-10-30 11:13:15 user6910411

sparklyrを使用してDataFramesのメモリ使用量を表示する方法は？

答えて

関連する問題