pyspark

-1熱

3答えて

PythonスクリプトでPySpark APIを使用してsparkアプリケーションからpcaを実行しようとしています。私はそれが良い結果を仕事と戻りpysparkシェルで、これら2つのコード行を実行したときに pca = PCA(k=3, inputCol="features", outputCol="pcaFeatures") PCAmodel = pca.fit(data) が、アプリケ

-1熱

1答えて

pyspark tsv duplicate columns

spark_csvパッケージを使用してpysparkのtsvファイルを読み込もうとしています。私のスパークバージョンは1.6.3です。私のデータセットでは、2つの列は同じ名前です。私はデータを読むために次のコードを使用しています。私は、コードの上に使用して読んだとき、私は次の例外を取得 temp=sqlContext.read.load(data_file, format='com

-1熱

1答えて

PySparkのHDFSから* .XLSXファイルを読み取る

PySparkのHDFSからxlsxファイルを読み取るにはどうすればよいですか？ 1つの方法は、CSVファイルに変換することですが、私は多くのファイルを持っており、私は他の方法を探しています。

1熱

1答えて

PySparkを使用して同じ2つのデータフレームに2回参加することはできますか？

私は現在pySparkを使用しています。私は今、2つのテーブルを持っています。私はそれらを次のように2回参加させたい。 Table 1 (df1) sell_product sell_amount buy_product buy_amount apple 2 pineapple 3 pear 1 apple 4 orange 5 apple

0熱

1答えて

pysparkのparseException

私は3つのJSONファイルを読み込んでJSONファイルをDataFramesに変換し、DataFramesをSQLクエリが実行されるテーブルに変換するように書かれたpysparkコードを持っています。 import pyspark.sql from pyspark.sql import SparkSession from pyspark.sql import SQLContex

2熱

1答えて

"を削除しています。 Spark DataFrame列名から

"。"を削除するにはどうすればよいですか？ Spark DataFrameの列名からですか？ DataFrame.select(F.col().alias()) "。"を持つ列名の名前を変更する方法。それらはエラーを投げる。次のコードは再現可能です。 # import Spark libraries, configuration, Contexts, and types. import pys

-1熱

1答えて

PySparkフレームのDiffカラムの複数のピボット

私は8列のpy-sparkデータフレームを持っています。データフレームには列があります。 Columns L , W , PN , PV , CP , CH , RP , RH Row1 L1, W1, PN1, PV1, CP1, CH1, RP1, RH1 Row2 L2, W2, PN2, PV2, CP2, CH2, RP2, RH2 列L、Wは、データセットのキーを形成しま

-1熱

1答えて

PYSPARK-コアスパークAPIを使用して毎月トップnレコードを見つけよう

50kに近い数のソートされたRDDは、以下のとおり、 rdd：（date、（customer_id、subtotal））の形式のデータです。 core Sparkを使用して、上記のRDDで各日付のトップ5顧客を抽出するにはどうすればよいですか？コアスパークにランクを実装する上の任意のポインタも for i in orderItemsJoinSortMap.take(10): print(i) (