2017-06-09 26 views
0

例をthis postにして、DataFrameをCSVとしてAWS S3バケットに書き出しました。結果は単一のファイルではなく、多数の.csvファイルを含むフォルダでした。私は今、このフォルダでSparkRのDataFrameとして読み込みに問題があります。以下は私が試したものですが、私が書いた同じDataFrameにはなりません。DataFrameから書き込んだ後にcsvデータを読み込む

write.df(df, 's3a://bucket/df', source="csv") #Creates a folder named df in S3 bucket 

df_in1 <- read.df("s3a://bucket/df", source="csv") 
df_in2 <- read.df("s3a://bucket/df/*.csv", source="csv") 
#Neither df_in1 or df_in2 result in DataFrames that are the same as df 

答えて

0
# Spark 1.4 is used in this example 
# 
# Download the nyc flights dataset as a CSV from https://s3-us-west-2.amazonaws.com/sparkr-data/nycflights13.csv 

# Launch SparkR using 
# ./bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3 

# The SparkSQL context should already be created for you as sqlContext 
sqlContext 
# Java ref type org.apache.spark.sql.SQLContext id 1 

# Load the flights CSV file using `read.df`. Note that we use the CSV reader Spark package here. 
flights <- read.df(sqlContext, "./nycflights13.csv", "com.databricks.spark.csv", header="true") 

# Print the first few rows 
head(flights) 

この例がお役に立てば幸いです。

関連する問題