2017-09-27 15 views
0

私は2つの問題に直面している私の最初の火花プロジェクトにpysparkと新しい作業をしています。 ) pysparkデータフレームの値を置き換えます

Code: 
from pyspark import SparkConf, SparkContext 
from pyspark.sql.functions import * 
from pyspark.sql import Row, HiveContext, SQLContext, Column 
from pyspark.sql.types import * 

df = hive_context.table("db_new.temp_table") 
df.select("col1").fillna(df.select("col1").mean()) 

***AttributeError: 'DataFrame' object has no attribute 'mean'*** 

平均

のような集計値で、私のスパークデータフレームにすべてのヘルプは大歓迎された値を置換することはできません

df["col1"].show() 

***TypeError: 'Column' object is not callable*** 

Bを使用してカラムを参照する

a)はできません!

更新:

私は以下のコードを試してみましたが、それは別のエラーが返されます。

df.withColumn("new_Col", when("ColA".isNull,df.select(mean("ColA")) 
    .first()(0).asInstanceOf[Double]) 
    .otherwise("ColA")) 

AttributeError: 'str' object has no attribute 'isNull' 

答えて

-2

これは動作するはずです:

df[["col1"]].show() 
+0

ありがとう!それが私の最初の問題を解決しました。 2番目の提案はありますか? – pysparker

+0

申し訳ありませんが2番目のビットを見て、私は2番目の部分はあなたの質問へのコメントで答えられたと思います – ags29

関連する問題