pyspark-sql

19熱

3答えて

文字列を日付列pysparkのデータフレームにMM-dd-yyyyの形式で格納していますが、これを日付列に変換しようとしています。私が試した： df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() を、私はヌルの文字列を取得します。誰も助けることができますか？ここで

5熱

1答えて

pysparkでspark.sql.parquet.output.committer.classを設定する方法

私はspark.sql.parquet.output.committer.classを設定しようとしていますが、設定を有効にすることはできません。多くのスレッドが同じ出力フォルダに書き込もうとしていますが、これは_temporaryフォルダを使用しないため、org.apache.spark.sql. parquet.DirectParquetOutputCommitterで動作します。 Caus

3熱

1答えて

Pysparkユーザ定義集計計算カラム

Pysparkの分類子の入力データを準備しています。 SparkSQLで集合関数を使用して平均や分散などの特徴を抽出しています。これらは、アクティビティ、名前、ウィンドウでグループ化されています。ウィンドウは、UNIXのタイムスタンプを10000で割って10秒の時間ウィンドウに分割して計算されています。 sample = sqlContext.sql("SELECT activity, name,

0熱

2答えて

次のアイテムからの最初のグループ化アイテムの集約

私は、ユーザーID、ゲームID、スコア、およびゲームが行われた時のタイムスタンプを含むユーザーゲームセッションを持っています。 from pyspark import SparkContext from pyspark.sql import HiveContext from pyspark.sql import functions as F sc = SparkContext("local

2熱

3答えて

pyspark.sqlのdata.frame理解機能

私はmoocを取っています。これは、列が小文字に変換する必要があるつの割り当てを有しています。 sentence=lower(column)はそのトリックを行います。しかし、当初私は構文がsentence=column.lower()であるべきだと思った。私はドキュメントを見て、私は構文の問題を理解できませんでした。オンライン文書と関数定義を検索することによって、私が間違った構文をしていることを

1熱

2答えて

RDDをDataFrame PySparkに変換するときにエラーが発生する

Apache Sparkでいくつかの調査をしていて、私は本当に奇妙なものに直面しています。以下のコードを参照してください。 ClimateRdd = ClimateRdd.map(lambda x: tuple(x)) print ClimateRdd.first() これらのコマンドは、私には、この行を返す： ('1743-11-01', '4.3839999999999995', '2.

3熱

1答えて

Spark DataFrameによるパーティショニングを確実に行うにはどうすればいいですか？

効率性と堅牢性を高めるために、より多くのDataFrame操作を使用するためにSparkアプリケーションを書き直しています。しかし、DataFramesで処理できないアプリケーションの一部があり、RDDにドロップする必要があります。その本質に剥奪、コードは次のようになります。 C = A.join(B, join_key) # join_key is a string naming a colum

0熱

1答えて

'どこでapacheのスパークで

df: -----------+ | word| +-----------+ | 1609| | | | the| | sonnets| | | | by| | william| |shakespeare| | | | fg| これは私のデータフレームです。 'where'句を使用して空の行を削除する方法（ 'が含まれている行を削除する方法

1熱

1答えて

SQLContextからのPySpark createExternalTable（）

Spark 1.6.1の使用。私はpySpark DataFrameオブジェクトに変換したいテーブルの束をmariaDbに持っています。しかし、createExternalTable（）は投げています。例： In [292]: tn = sql.tableNames()[10] In [293]: df = sql.createExternalTable(tn) /home/charle