私はtransform
とusing
でハイブudfを作成する方法を知っていますが、sklearn
を使用することはできません。ハイブ・クラスタ内のすべてのノードがsklearn
であるとは限りません。
anaconda2.tar.gz
にsklearn
があります。どうすればよいですか?sklearnのようなサードパーティのパッケージでpythonを使ってハイブ用のudfを作成するには?
答えて
私は最近、このアプローチを検討し始めました。問題は、(上記のように)「ハイブノード」がそれらの上にsklearnを持っているということではないと感じました。スケルランノードの可用性 ' Sklearnは、(まだ)大量のデータを短時間で処理できる並列アルゴリズムとして実行するようには設計されていないと思います。
私が何をしようとしているは、アプローチとして、(例えば)「pyhive」を介して「ハイブ」にパイソンを伝え、そのコード内で必要なsklearnライブラリ/呼び出しを実装することです。この 'sklearn-hive-python'コードが各ノードで実行され、 'map-reduce'レベルでデータを扱うという大まかな仮定。 これは適切な解決方法であるとは言えませんが(まだ)、これはいつか検索してから結論づけることができます。
ありがとう。ハイブマップのみのジョブには 'sklearn'を使用しますので、ジョブ間の通信はありません(reduceなど)。 – sigmoid
あなたは 'spark'を介してhdfsファイルにアクセスでき、 'spark-sklearn'(https://pypi.python.org/pypi/spark-sklearn/0.2.0)を利用することができます。むしろ、私はむしろpythonを直接hadoopに話して、必要なmap-reduce作業をしてから、spark-sklearn(データが大きく、あなたのマシンのデータウェアハウスに格納されている)を介して出力データを処理します。私はspark-sklearnがデータサイズを処理すべきだと考えています。 –
- 1. Python UDFをハイブで使用する
- 2. ハイブのPython UDFエラー
- 3. Pythonでカスタム配列値のハイブUDF?
- 4. Cライブラリを使ってPythonのpypiパッケージを作成するにはどうすればよいですか?
- 5. ハイブUDFのログメッセージ
- 6. シェルスクリプトによるハイブudfの実行
- 7. dataframe/matrixを使ってsklearn&Tensorflowの入力を作成する
- 8. ハイブでUDFのデバッグ情報
- 9. Pythonパッケージのインストールでpip to sourceを使ってシンボリックリンクを作成しない
- 10. サードパーティのパッケージの周りにラッパークラスを作成する
- 11. Meteorでサードパーティ製のjavascriptパッケージを使用
- 12. Pythonの:私はPythonパッケージを作ってきたし、私のプロジェクトディレクトリは次のようになります
- 13. sklearnを使ってPythonでN * M行列をどのように配置するのですか
- 14. Pygameを使ってPythonで作られたPythonゲームをパッケージ化するには?
- 15. 「私のインテルミュージアム」のようなFlashを使ってウェブサイトを作成するには?
- 16. PdfBoxを使ってpdfパッケージを作成するには?
- 17. Pythonでtkinterを使ってログインページを作成しようとしても動作しないようです。
- 18. Goで辞書のようなPythonを作成するには?
- 19. iPhone/iOSの開発でサードパーティのコンパイル済みライブラリを使用できるようになっていますか?
- 20. jsonを使ってREST APi用のpythonスクリプトを作成する
- 21. 次のように私はテーブルを持っているハイブ
- 22. NugetのMicrosoft.AspNetCore.Allのようなメタパッケージ(すべてのパッケージのパッケージ)を作成するには?
- 23. は、私は、以下のものを使用してビーラインを通じてハイブでUDFを登録スパーク
- 24. ハイブUDFはTOP目的球
- 25. ユーザーのビルドオプションを使用してmeteorJSパッケージを作成するにはどうすればよいですか?
- 26. ハイブUDFを書く方法
- 27. ハイブUDF、Javaプリミティブ、ヌル
- 28. ハイブUDFグローバル変数
- 29. デリミタ付きハイブUDF
- 30. sklearnのpreprocessing.scaleでPythonのマップ関数を使用するにはどうすればよいですか?
解決策の1つは、すべてのソースコードをあなたのudfにコピーすることです。私はitertoolsが必要なブタのUDFを持っていましたが、私たちが持っているPythonのバージョンはitertoolsを持たない2.6.6です。だから私は順列の実装を見て、それを私のUDFに入れました。そこで 'itertools.permutations'を呼び出すのではなく、私のUDFで定義された' permutations'を呼びました。必要な機能に多くの依存関係がある場合、これは実現不可能かもしれません。別のオプションは、各ノードにscikit-learnをインストールすることです。ありがとう。 – gobrewers14