HDFSでは、寄木張りの形式で同じデータが2セットあります。
1セットはcol1
にソートされ、別のセットはソートされません。 sorted_tableは約127GBで、unsorted_tableは約117GBです。 サイズはここでは問題ありません。Sparkを使用した寄木細工ファイルのカウント操作
私はスパークSQLを使用して2つのクエリ以下走った:私はスパークUI上でこれらのクエリを解析し
select col1, count(*) from sorted_table where col1 = someInt group by col1
select col1, count(*) from unsorted_table where col1 = someInt group by col1
、私はsorted_table上のクエリがunsorted_table上のデータとクエリの唯一の127メガバイトを読み込むことがわかった35 GBのデータを読み込み、カウントを計算します。
だから私の質問は以下のとおりです。
- 少ないデータを読み出すことにより、カウント数字を出しスパークんどのように?
- なぜsorted_tableのジョブは、 unsorted_tableのジョブと比較してデータの読み込みが少ないのですか?