0
S3とGCSはHDFSと反対のブロックストレージではないので、Sparkがこれらのソースから読み取るときにパーティションを作成する方法はわかりません。 私は現在GCSから読んでいますが、小さなファイル(10バイト)には2つのパーティションがあり、中位のファイルには100 MBもあります。バケットから読み取るときのスパークパーティションの数 - S3 - GCS
説明はありますか?
S3とGCSはHDFSと反対のブロックストレージではないので、Sparkがこれらのソースから読み取るときにパーティションを作成する方法はわかりません。 私は現在GCSから読んでいますが、小さなファイル(10バイト)には2つのパーティションがあり、中位のファイルには100 MBもあります。バケットから読み取るときのスパークパーティションの数 - S3 - GCS
説明はありますか?
一般に、設定オプションは「パーティションサイズについてどれだけ大きなものか」です。
スパークサイドでの設定を意味しますか? split.sizeなどが好きですか? – Edge7
はい;これは、そのストアまたはフォーマットのデフォルト値です –