2016-09-06 8 views
0

pyspark.sql.functions.from_utc_timestamp(timestamp, tz)をインポートしようとしましたが、無効な構文エラーが常に表示されます。このモジュールを使用して、エポックタイムの値のセットをsparkのUTCに変換するにはどうすればよいですか?あなたがやりたいpyspark.sql.functions.from_utc_timestamp(timestamp、tz)の構文エラー

+0

は、あなたがしようとしたコードに手の込んだてもらえますか? 'pyspark.sql.functions.from_utc_timestamp(timestamp、tz)'をインポートして、関数呼び出しであり、無効なpython(構文エラー) – AbdealiJK

+0

ああ!次に、私はインポートpyspark.sql.functions.from_utc_timestamp(タイムスタンプ、tz)を試してみました。私は質問に追加のコードを追加しました。 – kaks

+0

私は関数をインポートする適切なコードを持つpysparkドキュメントからいくつかのコードで答えました – AbdealiJK

答えて

1

いくつかのサンプルコード(ドキュメントから取られ、および修正):

>>> from pyspark.sql.functions import from_utc_timestamp 
>>> df = sqlContext.createDataFrame([('1997-02-28 10:30:00',)], ['t']) 
>>> df.select(from_utc_timestamp(df.t, "PST").alias('t')).collect() 
[Row(t=datetime.datetime(1997, 2, 28, 2, 30))] 
+0

ありがとう!それはうまくいった。しかし、今は私の行にエラーが表示されます:df = sqlContext.createDataFrame(logLine、['t']) TypeError:型の型を推測できません: 'unicode'型 私のファイルにはエポック時間の5つの値しか含まれていません。 – kaks

+0

logLineはどのようなタイプですか?それはUTCタイムスタンプのタプルの配列ですか?これは '[Tuple_of_column_1、Tuple_of_column_2、...]'の形式でなければなりません。 'Tuple_of_column_1'は'( '1994-05-18 12:30:00'、 '1997-02-28 10:30:00 '、' 2007-05-02 1:30:00 '、...) '。 既にテキストファイルである場合は、 'sc.textFile'を使用することができます。 このトピックに関係のない質問については、新しいSOの質問を開くことをお勧めします – AbdealiJK