0
私は2つの問題に直面している私の最初の火花プロジェクトにpysparkと新しい作業をしています。 ) pysparkデータフレームの値を置き換えます
Code:
from pyspark import SparkConf, SparkContext
from pyspark.sql.functions import *
from pyspark.sql import Row, HiveContext, SQLContext, Column
from pyspark.sql.types import *
df = hive_context.table("db_new.temp_table")
df.select("col1").fillna(df.select("col1").mean())
***AttributeError: 'DataFrame' object has no attribute 'mean'***
平均
のような集計値で、私のスパークデータフレームにすべてのヘルプは大歓迎された値を置換することはできません
df["col1"].show()
***TypeError: 'Column' object is not callable***
Bを使用してカラムを参照する
a)はできません!
更新:
私は以下のコードを試してみましたが、それは別のエラーが返されます。
df.withColumn("new_Col", when("ColA".isNull,df.select(mean("ColA"))
.first()(0).asInstanceOf[Double])
.otherwise("ColA"))
AttributeError: 'str' object has no attribute 'isNull'
ありがとう!それが私の最初の問題を解決しました。 2番目の提案はありますか? – pysparker
申し訳ありませんが2番目のビットを見て、私は2番目の部分はあなたの質問へのコメントで答えられたと思います – ags29