2016-12-26 4 views

答えて

2

スパークbucket sortの分散変異体を使用する:

  • データはバケットの特定の数にRangePartitionerを使用して分配されます。
  • 各バケットはシャッフル内で別々にソートされます。
+0

Sparkの 'sort'の直観は、' sorted'コレクションについての私たちの考え方とはまったく異なります。あなたの直感は、正常な世界での「コレクション」の考え方によって制限されているようです。この質問は、あなたに、「並列計算をサポートすると思われる分散コレクションをソートすることによって、あなたは何を意味するのですか」という相違についてのいくつかの洞察を与えるかもしれません。一つのヒントは...おそらく、パイプラインの後に来る「消費者/イテレータ/アキュムレータ」を制御して、この分散コレクションを特定の方法で消費して注文を維持することが望ましいでしょう。 –

+0

これは '' OrderedRDD'と呼ばれる特別なRDDになります。これは、 ''コンシューマー/イテレーター/アキュムレーター 'がパイプラインをさらに下って、この 'order'を保存することを知っていることを保証します。 RDDは、通常の 'sort'定義に従って' sorted'されていません。 –

+0

@SarveshKumarSingh「OrderedRDD」のようなものはありません。 – user7337271

関連する問題