2016-05-16 16 views
1

withColumnRenamedで最初に名前を変更しない限り、ドットを含むpysparkデータフレーム(たとえば、 "id.orig_h")は、groupby upponを許可しません。回避策はありますか? "`a.b`"はそれを解決していないようです。私pysparkシェルでドットが付いたデータフレームのpysparkアクセス列。

+0

グループ化に使用しているコードを共有できますか? –

答えて

4

、以下のスニペットは、作業している:

from pyspark.sql.functions import * 
myCol = col("`id.orig_h`")  
result = df.groupBy(myCol).agg(...) 

myCol = df["`id.orig_h`"] 
result = df.groupBy(myCol).agg(...) 

私はそれが役に立てば幸い。

+0

あなたの答えは@Daniel de Paulaに感謝します。 '' groupby( "id.orig_h'") ''を使って ''動作しないことを確認できますか? –

+0

@HananShteingart、私のために次のコードが動作します: 'df.groupBy(" \ 'id.orig_h \' ").gg(...)' –

+0

私にとってはそうではありません。 idで始まる列を追加してください。 ?私はpyspark 1.6 –

関連する問題