2016-07-29 5 views

答えて

1

Sparkのメモリ内分散処理能力を使用するには、parkpark APIを使用してSpark Contextを定義し、RDD(Resilient Distributed Dataset)を作成する必要があります。標準のPythonコードはpysparkシェル内で実行できますが、単一ノード上でコードを実行するのと同じです。 Sparkは独自の機械学習ライブラリを持っていますが、一般的にはPythonで利用可能なものほど豊富ではありません。お役に立てれば。

+0

私はpysparkにすべてのpythonモジュール(pandas、sklearn ...など)をインストールできますか?はいの場合はどうすればいいですか? –

+0

PythonモジュールのインストールはPySparkから独立しています。 Unix環境で作業していると仮定します。 「pip」ユーティリティーがインストールされているかどうか確認してください。 例: このpip ファイルシステムにpipコマンドの場所が表示されます。 「pip」が利用可能な場合は、以下を試してみてください。 pip install pandas サイトパッケージの設定によって異なります。 pipをインストールするには、すべてのパッケージを手動でダウンロードしてPythonリポジトリで利用できるようにする必要があります。 詳細については、次のURLを参照してください。https://docs.python.org/3/installing/ – neko

関連する問題