pyspark-sql

    1

    1答えて

    私は火花にこのデータを読んでいるときに、この A B C 1 2 2 4 3 2 5 1 2 3 4 5 6 のようになりますcsvファイルを、きた、それが文字列「として、列Cを考慮しています"最初の数行に"空白 "があるためです。 誰でもSQLデータフレームにこのファイルをロードして、列cが整数(または浮動小数点数)のままになるように教えてください。 私は "sc.textFile

    0

    1答えて

    スパークSQLを使用して3つのテーブルを結合していますが、複数のカラム条件でエラーが発生します。 test_table = (T1.join(T2,T1.dtm == T2.kids_dtm, "inner") .join(T3, T3.kids_dtm == T1.dtm and T2.room_id == T3.room_id and T2.boo

    1

    1答えて

    私は私はpysparkで利用可能 toPandas() 方法を使用してパンダのデータフレームに変換することができるスパークデータフレームを有しています。 私はこれに関して次の質問をしていますか? この変換は、spark 自体(分散コンピューティング)を使用する目的を破りますか? データセットが巨大になるので、速度とメモリはどうなるのですか ? 誰かが説明することができれば、この1つのコードで正

    2

    1答えて

    現在、データフレームを入力として受け取るpyspark.ml.clustering.KMeansモジュールを使用するには、RDDをcontingency tableに変換しようとしています。 私は次のような構造が見えmyrdd.take(K)、(Kは、いくつかの番号です)を実行します。 [[u'user1' 、( 'ITM1'、3)、...、( 'ITM2を( 'itm2'、2)、...、uuus

    2

    1答えて

    spark-ec2を使用してspark clusterを作成しました。 今、私はそれを豊かに、Postgresのからいくつかのデータを取得するタスクを送信したい、と背中新しいテーブルでそれをダンプしますので、私は、次のコマンドを使用していることをやろう: PYSPARK_PYTHON=/usr/bin/python2.7 ./spark/bin/spark-submit --jars=/root/

    1

    1答えて

    複数のファイルを1つのデータフレームとしてロードできますか?私はロードするために一つのファイルを持っている場合、通常、私は、例えば呼び出します。 file1 = "https://stackoverflow.com/a/b/c/folder/file1.csv" dc = sqlContext.read.format('com.databricks.spark.csv').options(hea

    0

    1答えて

    フィールドの1つにネストされた配列値を持つPySparkにDataFrameがあります。配列に特定の文字列が含まれているDataFrameをフィルター処理したいと思います。私はそれをどうやってできるのか見ていない。 スキーマは次のようになります。私はupper(name) == 'JOHN'すべての行を返すようにしたい root |-- name: string (nullable = true)

    0

    1答えて

    で提供されている基本的な例を実行しようとしています。Apache SPARKドキュメントのReflectセグメントを使用しています。 私は私が実行しようとしている例は以下の通りです:: # sc is an existing SparkContext. from pyspark.sql import SQLContext, Row sqlContext = SQLContext(sc) #

    0

    1答えて

    pyspark.sql.dataframe.DataFrameに格納されたトランザクションを "key"列(この場合は顧客ID)を示す列 "key"でグループ化したいとします。 グループ化はので、私は、ネストされたスキーマ内のディスクにグループを書きたい、非常に高価なプロセスである: (key, [[c1, c2, c3,...], ...]) これは私がすぐにキーにすべてのトランザクションを

    4

    2答えて

    私は、パーケージをループしたときにSparkがメモリの問題によりクラッシュするのを防ぐ方法を見つけようとしているファイルおよびいくつかの後処理機能を提供します。私はPySparkを使っています。これが適切なStack Overflowフォームを破るならば、謝罪してください! 基本的な擬似コードは次のとおりです。 #fileNums are the file name partitions in t