-2
スパークでどのようにソートが達成されたか知りたいですか?ここでは、rdd操作の書き込みに使用されるアルゴリズムを見つけることができます。 sortByがSparkで使用するアルゴリズムはどれですか?
おかげスパークでどのようにソートが達成されたか知りたいですか?ここでは、rdd操作の書き込みに使用されるアルゴリズムを見つけることができます。 sortByがSparkで使用するアルゴリズムはどれですか?
おかげスパークbucket sortの分散変異体を使用する:
RangePartitioner
を使用して分配されます。
Sparkの 'sort'の直観は、' sorted'コレクションについての私たちの考え方とはまったく異なります。あなたの直感は、正常な世界での「コレクション」の考え方によって制限されているようです。この質問は、あなたに、「並列計算をサポートすると思われる分散コレクションをソートすることによって、あなたは何を意味するのですか」という相違についてのいくつかの洞察を与えるかもしれません。一つのヒントは...おそらく、パイプラインの後に来る「消費者/イテレータ/アキュムレータ」を制御して、この分散コレクションを特定の方法で消費して注文を維持することが望ましいでしょう。 –
これは '' OrderedRDD'と呼ばれる特別なRDDになります。これは、 ''コンシューマー/イテレーター/アキュムレーター 'がパイプラインをさらに下って、この 'order'を保存することを知っていることを保証します。 RDDは、通常の 'sort'定義に従って' sorted'されていません。 –
@SarveshKumarSingh「OrderedRDD」のようなものはありません。 – user7337271