ドットが付いたデータフレームのpysparkアクセス列。

withColumnRenamedで最初に名前を変更しない限り、ドットを含むpysparkデータフレーム（たとえば、 "id.orig_h"）は、groupby upponを許可しません。回避策はありますか？ "`a.b`"はそれを解決していないようです。私pysparkシェルでドットが付いたデータフレームのpysparkアクセス列。

出典

2016-05-16 Hanan Shteingart

グループ化に使用しているコードを共有できますか？ –

、以下のスニペットは、作業している：

from pyspark.sql.functions import * 
myCol = col("`id.orig_h`")  
result = df.groupBy(myCol).agg(...)

と

myCol = df["`id.orig_h`"] 
result = df.groupBy(myCol).agg(...)

私はそれが役に立てば幸い。

出典

2016-05-16 23:31:48

あなたの答えは@Daniel de Paulaに感謝します。 '' groupby（ "id.orig_h'"） ''を使って ''動作しないことを確認できますか？ –

@HananShteingart、私のために次のコードが動作します： 'df.groupBy（" \ 'id.orig_h \' "）.gg（...）' –

私にとってはそうではありません。 idで始まる列を追加してください。？私はpyspark 1.6 –

ドットが付いたデータフレームのpysparkアクセス列。

答えて

関連する問題