pyspark

    2

    3答えて

    pysparkのpostgres sqlデータベースから読み込む必要があります。 here、hereなど多くの場所でこれが以前に尋ねられたことは知っていますが、そこの解決方法はローカルの実行ディレクトリにjarを使用するか、手動ですべての作業者にコピーします。 私はpostgresql-9.4.1208 jarをダウンロードして、/ tmp/jarsに配置しました。私はその後、--jarsでpys

    4

    1答えて

    私は、Spark via Pythonを使用して、同じセッションでPostGresデータベースとMSSQLデータベースに(JDBC経由で)アクセスしようとしています。 spark-defaults.confファイルでは、どちらか一方を動作させることはできますが、両方を動作させることはできません。 独立してこれら二つの作業:事前に spark.driver.extraClassPath /Users

    3

    1答えて

    私はSparkで遊んで始めましたが、私はすでに苦労しています。私はちょうどスパークのspark-1.6.1-bin-hadoop2.4をダウンロードしてPySparkシェル./bin/pysparkを開こうとしましたが、私は残念ながら、次のプロンプトが表示されました: Error: Could not find or load main class org.apache.spark.launche

    3

    2答えて

    parkparkでSparkのmllibを使用するとクラスターラベルを取得するにはどうすればよいですか? temp = KMeans.train(data, k, maxIterations=10, runs=10, initializationMode="random") これはKmeansModelオブジェクトを返します。sklearnでは、これはmllibで kmeans = MiniB

    1

    1答えて

    最近、1つのマスタと2つのスレーブを持つAmazon EMRでSparkクラスタをセットアップしました。 pysparkを実行し、​​でジョブを送信できます。 しかし、私は、スタンドアロンのジョブを作成するとき、job.pyのように、私はSparkContextを作成し、そのよう: sc=SparkContext("local", "App Name") これがないと思えるが、私はそこに置くこ

    10

    5答えて

    例えば sqlContext = SQLContext(sc) sample=sqlContext.sql("select Name ,age ,city from user") sample.show() に上記のステートメントは、端末上のテーブル全体を印刷するが、私は、さらに計算を実行するまたはしばらくを使用して、そのテーブルの各行にアクセスしたいです。

    2

    1答えて

    私はpythonでスパークを使用しています.CSVファイルをアップロードした後、22桁の番号を持つCSVファイル内の列を解析する必要がありました。その列を解析するために、LongType()を使用しました。私は、列を定義するためにmap()関数を使用しました。 以下は私のコマンドがpysparkであることです。 >>> test=sc.textFile("test.csv") >>> heade

    1

    1答えて

    StandardScaler(from pyspark.mllib.feature import StandardScaler)でデータを拡大したいのですが、RDDの値を変換関数に渡すことでこれを行うことができますが、キーを保持したいという問題があります。とにかくキーを保存してデータを拡大することはありますか? サンプルデータセット 0,tcp,http,SF,181,5450,0,0,0,0,0

    12

    3答えて

    からそうpysparkから実行したとき、私は(任意のコンテキストを指定せず)で入力します。 df_openings_latest = sqlContext.sql('select * from experian_int_openings_latest_orc') ...、それが正常に動作します。私は spark-submit script.pyよう​​から私のスクリプトを実行すると しかし、私

    1

    1答えて

    SparkのドキュメントではHashingTFフィーチャーを使用すると書かれていますが、変換関数が入力として期待するものは不明です。 http://spark.apache.org/docs/latest/mllib-feature-extraction.html#tf-idf 私はチュートリアルのコード実行してみました: from pyspark import SparkContext fro