私はSparkで機械学習アルゴリズムを実装しようとしています。基本的な考え方は、データをN個のパーティションに分割し、個々のデータセットパーティションごとに個別のN個のモデルを個別に学習することです。予測の間、我々はこれらのN個のモデルをポーリングし、それらのo/pを取得し、それらを結合する。spark machine learning - より良い設計
a)は、我々はmapPartitionsWithIndex
問題使用する各パーティションにモデルを学習する(N) b)の配分を使用してN個の部分にデータをパーティションに同じ物理マシンに複数のパーティションマップ - 起動同じ物理ノード(mapPartitionsWithIndexによって呼び出される)上に複数のモデルが構築され、ノードのメモリが不足します(実行ファイルのメモリが最大限になりました)。
これを設計するより良い方法はありますか?
あなたが別のパーティション上の異なるパーティション、または異なるモデルで同じモデルを学習していますか? – mtoto