2017-10-26 18 views

答えて

1

まず、Sparkで使用されるデータ構造はデフォルトでは怠惰だということを覚えておく必要があります。キャッシュされていない限り、データに関連するストレージオーバーヘッドはありません。キャッシュ自体は一時的です - StorageLevelに応じて、データは破棄される可能性があります。障害の結果として失われるか、ノードが廃止されます。

また、SQLに圧縮されたカラム型ストレージを使用することを覚えておく必要があります。そのため、メモリの使用率はデータの分散の影響を受ける可能性があります。

オペレーティングシステムのメモリ使用量に関心がある場合は、GangliaやMuninのような適切な監視ソリューションを使用してください。

SparkContextを使用して、現在のステータスに関する情報にアクセスすることができると述べていること:

sc <- spark_connect(...) 

sc %>% 
    spark_context %>% 
    invoke("getRDDStorageInfo") 

または照会スパークUIによって:

url <- sc %>% spark_context %>% invoke("uiWebUrl") %>% invoke("get") 

browseURL(paste(url, "storage", sep="/")) 

またはREST API:

app_id <- sc %>% spark_context %>% invoke("applicationId") 
httr::GET(paste(
    url, "api", "v1", "applications", app_id, "storage", "rdd", sep="/" 
)) 
関連する問題