pyspark-sql

    19

    3答えて

    文字列を日付列pysparkのデータフレームにMM-dd-yyyyの形式で格納していますが、これを日付列に変換しようとしています。 私が試した: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() を、私はヌルの文字列を取得します。誰も助けることができますか?ここで

    5

    1答えて

    私はspark.sql.parquet.output.committer.classを設定しようとしていますが、設定を有効にすることはできません。 多くのスレッドが同じ出力フォルダに書き込もうとしていますが、これは_temporaryフォルダを使用しないため、org.apache.spark.sql. parquet.DirectParquetOutputCommitterで動作します。 Caus

    3

    1答えて

    Pysparkの分類子の入力データを準備しています。 SparkSQLで集合関数を使用して平均や分散などの特徴を抽出しています。これらは、アクティビティ、名前、ウィンドウでグループ化されています。ウィンドウは、UNIXのタイムスタンプを10000で割って10秒の時間ウィンドウに分割して計算されています。 sample = sqlContext.sql("SELECT activity, name,

    0

    2答えて

    私は、ユーザーID、ゲームID、スコア、およびゲームが行われた時のタイムスタンプを含むユーザーゲームセッションを持っています。 from pyspark import SparkContext from pyspark.sql import HiveContext from pyspark.sql import functions as F sc = SparkContext("local

    2

    3答えて

    私はmoocを取っています。 これは、列が小文字に変換する必要があるつの割り当てを有しています。 sentence=lower(column)はそのトリックを行います。しかし、当初私は構文がsentence=column.lower()であるべきだと思った。私はドキュメントを見て、私は構文の問題を理解できませんでした。オンライン文書と関数定義を検索することによって、私が間違った構文をしていることを

    1

    2答えて

    Apache Sparkでいくつかの調査をしていて、私は本当に奇妙なものに直面しています。以下のコードを参照してください。 ClimateRdd = ClimateRdd.map(lambda x: tuple(x)) print ClimateRdd.first() これらのコマンドは、私には、この行を返す: ('1743-11-01', '4.3839999999999995', '2.

    3

    1答えて

    効率性と堅牢性を高めるために、より多くのDataFrame操作を使用するためにSparkアプリケーションを書き直しています。しかし、DataFramesで処理できないアプリケーションの一部があり、RDDにドロップする必要があります。その本質に剥奪、コードは次のようになります。 C = A.join(B, join_key) # join_key is a string naming a colum

    0

    1答えて

    df: -----------+ | word| +-----------+ | 1609| | | | the| | sonnets| | | | by| | william| |shakespeare| | | | fg| これは私のデータフレームです。 'where'句を使用して空の行を削除する方法( 'が含まれている行を削除する方法

    1

    1答えて

    Spark 1.6.1の使用。私はpySpark DataFrameオブジェクトに変換したいテーブルの束をmariaDbに持っています。しかし、createExternalTable()は投げています。例: In [292]: tn = sql.tableNames()[10] In [293]: df = sql.createExternalTable(tn) /home/charle