pyspark-sql

    0

    1答えて

    "連鎖型"関数を使用しようとしています。 つまり、私は2つ以上の出力を得たいと思います。 私は、関数のIF ExcelでCONCATENATEのと同じロジックを使用してみました: df.withColumn("device_id", when(col("device")=="desktop",1)).otherwise(when(col("device")=="mobile",2)).otherw

    -1

    1答えて

    そのデータフレームで操作を実行する前に、複数のjsonファイルデータを1つのデータフレームにマージしようとしています。私は、2つのファイルがFILE1.TXTだから私は両方のファイルにずつ読んでいます {"a":1 , "b":"abc", "c":"abc2", "d":"abc3"} FILE2.TXT FILE1.TXT {"a":1 , "b":"abc", "c":"abc2", "

    1

    1答えて

    hdfsでパーティション分割された寄木張りファイルを作成し、HIVE外部テーブルを作成しました。パーティション化カラムでフィルタを使用してテーブルをクエリすると、sparkは特定のパーティションではなくすべてのパーティションファイルをチェックします。私たちはスパーク1.6.0です。 データフレーム: df = hivecontext.createDataFrame([ ("class1"

    0

    1答えて

    私のforループの次の行に無効な構文があると私のpysparkコンソールから通知されています。コンソールは、それがにSyntaxErrorを持っているスキーマ= StructType(フィールド)の行までループのために実行しますが、ループのために私にはよさそうだ...ここ from pyspark import SparkContext from pyspark.sql import SQLCo

    1

    1答えて

    Postgres DBからPySparkでテーブルを読み込もうとしています。私は、次のコードを設定し、SparkContextが存在を確認しました: import os os.environ['PYSPARK_SUBMIT_ARGS'] = '--driver-class-path /tmp/jars/postgresql-42.0.0.jar --jars /tmp/jars/postgre

    0

    1答えて

    私は非常に新しいApache Sparkです。私はcsvファイルをSpark RDDとDataFramesにロードしようとしています。 私はRDDを使用してデータを操作し、Dataframe for SQLのようなデータフレームの操作を使用します。 RDDをSpark DataFrameに変換する際に問題が発生します。問題のステートメントを以下に示します。データは print (dataRDD.t

    1

    1答えて

    Oracleに接続してSparkに接続しようとしましたが、一部のテーブルとSQLクエリからデータをプルします。しかし、私はOracleに接続できません。私はオプションの周りに別の作業を試みたが、見ていない。私は以下の手順に従っています。何か変更が必要な場合は私を修正してください。 私はWindows 7マシンを使用しています。 私はJupyterノートブックを使ってPysparkを使用しています。

    -3

    1答えて

    私は15列/変数(4つのカテゴリ&残りの数値)のデータフレームを持っています。私はすべてのカテゴリ変数のためのダミー変数を作成しています。今私は新しいデータフレームで変数の数を見つけたいと思っています。 私はprintSchemaの長さを計算しようとしたが、printSchemaはnonetypeです: print type(df.printSchema())