2016-04-14 4 views
2

ドキュメントをスパークによれば、データの局所性の5つのレベルがあります。タスクデータローカリティNO_PREF。それはいつ使われますか?

  • がPROCESS_LOCAL
  • NODE_LOCAL
  • NO_PREF
  • RACK_LOCAL
  • ANY

それらのすべてがかなり明確です私に離れてNO_PREF(スパークの文書から: "データはanywから等しく速くアクセスされますここでは地域性はありません。 ")

NO_PREFはどのように使用されますか?

答えて

1

RDD特性の1つが好ましい位置です。たとえば、RDDソースがHDFSファイルである場合、優先ロケーションには、データが物理的に配置されているデータノードが含まれている必要があります。しかし、データがどこから来ているか、またはSparkが優先ロケーションを決定できない場合、SparkはそのようなRDDの処理中にNO_PREFに設定されたデータローカリティでタスクを作成します。

関連する問題