withColumnRenamed
で最初に名前を変更しない限り、ドットを含むpysparkデータフレーム(たとえば、 "id.orig_h")は、groupby
upponを許可しません。回避策はありますか? "`a.b`"
はそれを解決していないようです。私pysparkシェルでドットが付いたデータフレームのpysparkアクセス列。
答えて
、以下のスニペットは、作業している:
from pyspark.sql.functions import *
myCol = col("`id.orig_h`")
result = df.groupBy(myCol).agg(...)
と
myCol = df["`id.orig_h`"]
result = df.groupBy(myCol).agg(...)
私はそれが役に立てば幸い。
あなたの答えは@Daniel de Paulaに感謝します。 '' groupby( "id.orig_h'") ''を使って ''動作しないことを確認できますか? –
@HananShteingart、私のために次のコードが動作します: 'df.groupBy(" \ 'id.orig_h \' ").gg(...)' –
私にとってはそうではありません。 idで始まる列を追加してください。 ?私はpyspark 1.6 –
- 1. pysparkデータフレーム列名
- 2. PySparkのデータフレームのパイプラインがpysparkのデータフレームを前処理した後MetastoreRelationエラー
- 3. PySpark:列の値から新しいデータフレーム列に名前を付ける
- 4. Pysparkの条件付きでデータフレームに列を追加
- 5. Pyspark:データフレーム
- 6. 私が使用してPySparkのデータフレームを構築していpysparkのデータフレーム
- 7. pysparkのデータフレームは、私が列「B」上のデータをaggreagateしたいことが
- 8. pysparkデータフレームのフィルタリング
- 9. PySpark Dataframe:コンマからドットへ
- 10. pysparkデータフレーム列の処理方法
- 11. Pysparkデータフレームからnumpyの配列
- 12. pyspark piplineRDDデータフレームの列に合わせる
- 13. pysparkのデータフレーム列を更新する
- 14. Pyspark:私は次のようなpysparkのデータフレームを持つpysparkのデータフレームから
- 15. 値が0に等しいpysparkデータフレームから列をフェッチする
- 16. PandasまたはPysparkデータフレームの連続する列を引く
- 17. Pysparkデータフレームを削除
- 18. PySparkデータフレームは、重複
- 19. pysparkにデータフレームの列がありますか?
- 20. は、私がpysparkでデータフレームを持ってpysparkにデータフレームと更新へ
- 21. フィルタpysparkのデータフレーム(ドロップしない保つ)
- 22. Pysparkデータフレーム操作のユニットテストケース
- 23. PySparkデータフレームの操作効率
- 24. pysparkデータフレームのcollect_setをフラットマップ
- 25. RDDからジョイントされたデータフレームへPySpark
- 26. Pyspark:データフレーム列のjson文字列を変換する方法
- 27. Zeppelin:pyspark.rdd.RDDをデータフレームに変換する(pysparkデータフレーム)
- 28. データフレームの列名へのアクセス
- 29. PySpark新しい列をデータフレームに追加する
- 30. Pyspark - データフレームforeach関数が複数のワーカー/並列化で動作しない
グループ化に使用しているコードを共有できますか? –