JSONファイルを含むフォルダでディレクトリを読み取る方法：Spark Scala

-2

ディレクトリ（jsonファイルのあるフォルダ）からの読み取り中にこのファイルを取得し続けます。私が使用：JSONファイルを含むフォルダでディレクトリを読み取る方法：Spark Scala

// sc : An existing SparkContext. 
val sqlContext = new org.apache.spark.sql.SQLContext(sc) 
val df = sqlContext.jsonFile("s3://testData") 
df.show()

エラー：

java.io.IOException: No input paths specified in job 
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:173) 
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:279) 
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:207) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
    at scala.Option.getOrElse(Option.scala:120) at org.apache.spark.rdd.RDD.partitions(RDD.scala:237) 
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
    at scala.Option.getOrElse(Option.scala:120) 
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:237) 
     at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
     at scala.Option.getOrElse(Option.scala:120) 
     at org.apache.spark.rdd.RDD.partitions(RDD.scala:237) 
     at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
     at scala.Option.getOrElse(Option.scala:120)

私のファイルシステムは次のようになります。

TESTDATA - 3フォルダ（00、01、02）それぞれの持つ1つのファイル/フォルダを持つディレクトリ

testData/00/temp1.json.gz 
testData/01/temp2.json.gz 
testData/02/temp3.json.gz

私はスパーク1.5を使用しています。私が読んでいる方法に何か問題はありますか？

出典

2016-07-05 Anonymous

をすることができますあなたは私のQuoraの上の匿名の要求を送信すると、私はこの質問に答えるしたいことはありません知っています。 https://www.quora.com/unanswered/How-do-I-read-Directory-with-folders-containing-JSON-files-in-Spark?srid=agpP&share=8d582ea1 – eliasah

それは効率的ではありませんが、あなたがsqlContext.jsonFile("s3://testData/*/*")

出典

2016-07-05 14:46:34

なぜ効率的ではないのですか？ –

@Ilya_Gazman http://tech.kinja.com/how-not-to-pull-from-s3-using-apache-spark-1704509219 –

JSONファイルを含むフォルダでディレクトリを読み取る方法：Spark Scala

答えて

関連する問題