2016-08-22 10 views
3

私は必死にSparkを使う必要があるPythonで12GBのデータを扱おうとしていますが、自分でコマンドラインを使うかインターネットを使うのはあまりにも馬鹿だと思いますそれで、私はSOに変えなければならないと思うのですが、pythonまたはjupyterノートブックでsparkを使う方法

これまでのところ、私は火花をダウンロードしてtarファイルを解凍しました。それは何でも言えますが、私は愚かではありません。行くべきどこにも見えない。私はスパークのウェブサイトのドキュメントの指示を見て、それは言う:

スパークはPython APIも提供しています。 PythonインタプリタでSparkをインタラクティブに実行するには、bin/pysparkを使用しますが、これを行う場所はどこですか?助けてください。 編集:私は窓10

注意を使用しています::主に何かをインストールしようとしたとき、私はあなたがファイルを解凍すると、コマンドをプロンプト

+0

以前はスパークを使用しましたか?それは、RDDタイプのインターフェイスは、そこで最も直感的なツールではありません。あなたが以前にパンダを使ったのであれば、SFramesを試してみてはいかがですか?任意のサイズのデータ​​(RAMより大きい)はロードできますが、Pandasよりも遅くなります。構文はPandasとほぼ同じです。 – user1157751

+0

いいえ私は私のチームがそれを使用しているため、私は火曜日に分析した後にプロジェクトを提出しなければならないので、スパークを使用する必要があります –

答えて

1

を理解するように見えることができないので、私はいつもディレクトリが作成され、問題に直面しています。

  1. 端末を開きます。
  2. cdでそのディレクトリに移動します。
  3. lsを実行してください。その内容が表示されます。 binはどこかに とする必要があります。
  4. bin/pysparkまたは./bin/pysparkを実行してください。

実際にはそれほど単純ではありませんが、TutorialsPointのようにいくつかのパスを設定する必要がありますが、そこにはたくさんのリンクがあります。

+0

答えをいただきありがとうございます。それは大きな助けになりますようにしてください。もしあなたが私たちはチャットすることができます –

+0

@AnuragPandey私はあなたの気持ちを知っています。残念ながら、私はできません。私は自分の仕事に就いています。私はあなたがこれを助け、それを受け入れることがわかった。問題を解決する場合は、新しい質問を投稿してください。 – gsamaras

3

あなたがjupyterノートブックをよく知っているなら、pyspark、scala、sqlとSparkRカーネルをSparkに統合するApache Toreeをインストールすることができます。あなたが他のカーネルをインストールしたい場合は

toree

pip install toree 
jupyter toree install --spark_home=path/to/your/spark_directory --interpreters=PySpark 

をインストールするための新しいノートブックを選択しながら今、あなたがすべき、UIで

jupyter notebook 

を実行

jupyter toree install --interpreters=SparkR,SQl,Scala 

を使用することができます以下のカーネルをご覧ください。

Apache Toree-Pyspark 
Apache Toree-SparkR 
Apache Toree-SQL 
Apache Toree-Scala 
+0

私はいくつかの問題の後にインストールすることができましたが、別のマシンであなたのメソッドを試してくれると思います。 –

+0

@AnuragPandeyそれは良いニュースです!あなたの試みの後で答えを受け入れることを確認してください! :) – gsamaras

0

私はすでにあなたにも利用できるwinutils.exeを持っている必要があります窓に10

をスパークがインストールされていることを理解しています。すでにhttp://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exeからファイルをダウンロードし、言うにインストールしていない場合、C:\ winutils \ binに環境変数

HADOOP_HOME=C:\winutils 
SPARK_HOME=C:\spark or wherever. 
PYSPARK_DRIVER_PYTHON=ipython or jupyter notebook 
PYSPARK_DRIVER_PYTHON_OPTS=notebook 

を設定

は今Cに移動:中\スパークディレクトリをコマンドプロンプトとタイプ "pyspark"

Jupyterノートブックがブラウザで起動します。 スパークコンテキストを作成し、図のようにcountコマンドを実行します。

enter image description here

関連する問題