私はpysparkでpretrained xgboostクラシファイアを使用したいが、クラスタ上のノードにはxgboostモジュールがインストールされていない。私は訓練して放送した分類器をピケッとすることができますが、各クラスタノードでモジュールをロードする必要があるので、これでは十分ではありません。sparkで使用するためのxgboostモジュールの配布方法は?
私はルートがなく、共有ファイルシステムがないため、クラスタノードにはインストールできません。
sparkで使用するためにxgboostクラシファイアを配布するにはどうすればよいですか?
私はxgboostのための卵を持っています。 http://apache-spark-user-list.1001560.n3.nabble.com/Loading-Python-libraries-into-Spark-td7059.htmlやhttps://stackoverflow.com/a/24686708/2179021のようなものはありますか?
個々のマシンにSSHアクセスできますか?どのクラスタマネージャを使用していますか? – zero323
@ zero323私たちはYARNを使用していますが、マシンにsshアクセスする必要はありません。私がしなければならないことは、「卵」の放送を含む解決策を見つけることです。 – eleanora
私の正直なアドバイスは、必要なライブラリを提供するか、設定可能な環境(Anacondaインストールなど)を提供するかを責任者に求めることです。ネイティブの依存関係を正しく構築して構成することは、快適性だけでなく、基本的なパフォーマンスについても同様です。違いはかなり重要です。 – zero323