0

S3とGCSはHDFSと反対のブロックストレージではないので、Sparkがこれらのソースから読み取るときにパーティションを作成する方法はわかりません。 私は現在GCSから読んでいますが、小さなファイル(10バイト)には2つのパーティションがあり、中位のファイルには100 MBもあります。バケットから読み取るときのスパークパーティションの数 - S3 - GCS

説明はありますか?

答えて

0

一般に、設定オプションは「パーティションサイズについてどれだけ大きなものか」です。

+0

スパークサイドでの設定を意味しますか? split.sizeなどが好きですか? – Edge7

+0

はい;これは、そのストアまたはフォーマットのデフォルト値です –

関連する問題