pyspark

    -1

    3答えて

    PythonスクリプトでPySpark APIを使用してsparkアプリケーションからpcaを実行しようとしています。私はそれが良い結果を仕事と戻りpysparkシェルで、これら2つのコード行を実行したときに pca = PCA(k=3, inputCol="features", outputCol="pcaFeatures") PCAmodel = pca.fit(data) が、アプリケ

    -1

    1答えて

    spark_csvパッケージを使用してpysparkのtsvファイルを読み込もうとしています。私のスパークバージョンは1.6.3です。私のデータセットでは、2つの列は同じ名前です。私はデータを読むために次のコードを使用しています。私は、コードの上に使用して読んだとき、私は次の例外を取得 temp=sqlContext.read.load(data_file, format='com

    -1

    1答えて

    PySparkのHDFSからxlsxファイルを読み取るにはどうすればよいですか? 1つの方法は、CSVファイルに変換することですが、私は多くのファイルを持っており、私は他の方法を探しています。

    1

    1答えて

    私は現在pySparkを使用しています。私は今、2つのテーブルを持っています。私はそれらを次のように2回参加させたい。 Table 1 (df1) sell_product sell_amount buy_product buy_amount apple 2 pineapple 3 pear 1 apple 4 orange 5 apple

    0

    1答えて

    私は3つのJSONファイルを読み込んでJSONファイルをDataFramesに変換し、DataFramesをSQLクエリが実行されるテーブルに変換するように書かれたpysparkコードを持っています。 import pyspark.sql from pyspark.sql import SparkSession from pyspark.sql import SQLContex

    2

    1答えて

    "。"を削除するにはどうすればよいですか? Spark DataFrameの列名からですか? DataFrame.select(F.col().alias()) "。"を持つ列名の名前を変更する方法。それらはエラーを投げる。 次のコードは再現可能です。 # import Spark libraries, configuration, Contexts, and types. import pys

    -1

    1答えて

    私は8列のpy-sparkデータフレームを持っています。 データフレームには列があります。 Columns L , W , PN , PV , CP , CH , RP , RH Row1 L1, W1, PN1, PV1, CP1, CH1, RP1, RH1 Row2 L2, W2, PN2, PV2, CP2, CH2, RP2, RH2 列L、Wは、データセットのキーを形成しま

    -1

    1答えて

    50kに近い数のソートされたRDDは、以下のとおり、 rdd:(date、(customer_id、subtotal))の形式のデータです。 core Sparkを使用して、上記のRDDで各日付のトップ5顧客を抽出するにはどうすればよいですか?コアスパークにランクを実装する上 の任意のポインタも for i in orderItemsJoinSortMap.take(10): print(i) (