2017-03-20 1 views
0

データフレームを読み込み、条件 "private == 1"(spark 2.1を使用)に基づいて読みたい。私は達成するための方法はありますsparkRに私はpysparkで `filter()`の列を指定するのにぎこちない方法

data = read.parquet(if_name) %>% filter(column("private") == 1) 

のような一時的なtmpデータフレームなしでワンライナーとしてこれを行うことができます、しかし、私は2つのラインでそれを行うことができます

tmp = spark.read.parquet(if_name) 
data = tmp.filter(tmp.private == 1) 

のようなものを知っていますpysparkで同じです(関数[Cc]olumnは未定義です)?

答えて

0

あなたが列を使用することができます

from pyspark.sql.functions import col 
spark.read.parquet(if_name).filter(col("private") == 1) 
関連する問題