Spark Sqlを使用してhdfsをクエリ

私はhdfsにcsvファイルを持っていますが、spark SQLでこのファイルをどのようにクエリできますか？たとえば、私は特別な列の選択要求を行い、その結果は、Hadoopの分散ファイルシステムに再格納されるように、あなたがデータフレームを作成することによって達成することができますSpark Sqlを使用してhdfsをクエリ

おかげ

出典

2016-12-08 Hattabi Maher

を取得したいと思います。

val dataFrame = spark.sparkContext 
    .textFile("examples/src/main/resources/people.csv") 
    .map(_.split(",")) 
    .map(attributes => Person(attributes(0), attributes(1).trim.toInt)) 
    .toDF() 

dataFrame.sql("<sql query>");

出典

2016-12-08 09:18:30

あなたはSparkSessionを持っているので、それは2.0スパークです。なぜ組み込みのCSVパーサーを使用していないのですか？ –

あなたはSparkSessionを作成する必要があります。例はhereです。
CSVファイルをロード：val df = sparkSession.read.csv("path to your file in HDFS")。
選択操作を実行してください：val df2 = df.select("field1", "field2")。
バックの結果を書く：df2.write.csv("path to a new file in HDFS")

出典

2016-12-08 09:18:52

Spark Sqlを使用してhdfsをクエリ

答えて

関連する問題