0
私はhdfsにcsvファイルを持っていますが、spark SQLでこのファイルをどのようにクエリできますか?たとえば、私は特別な列の選択要求を行い、その結果は、Hadoopの分散ファイルシステムに再格納されるように、あなたがデータフレームを作成することによって達成することができますSpark Sqlを使用してhdfsをクエリ
おかげ
私はhdfsにcsvファイルを持っていますが、spark SQLでこのファイルをどのようにクエリできますか?たとえば、私は特別な列の選択要求を行い、その結果は、Hadoopの分散ファイルシステムに再格納されるように、あなたがデータフレームを作成することによって達成することができますSpark Sqlを使用してhdfsをクエリ
おかげ
を取得したいと思います。
val dataFrame = spark.sparkContext
.textFile("examples/src/main/resources/people.csv")
.map(_.split(","))
.map(attributes => Person(attributes(0), attributes(1).trim.toInt))
.toDF()
dataFrame.sql("<sql query>");
val df = sparkSession.read.csv("path to your file in HDFS")
。val df2 = df.select("field1", "field2")
。df2.write.csv("path to a new file in HDFS")
あなたはSparkSessionを持っているので、それは2.0スパークです。なぜ組み込みのCSVパーサーを使用していないのですか? –