2016-12-13 23 views

答えて

2

Zeppelin Tutorialと、デフォルトでインストールされている関連サンプルのノートブックをご覧ください。最初の段落では、APIとSQLの両方の使用のためにデータセットを構築する方法を示します。その後、同じデータセットが後の段落で使用されます。バージョン0.6.2でのチュートリアルのノートから:

%sql 
select * from bank limit 5 

か、直接銀行のデータフレームを使用します:

%spark 
bank.show(5) 

import org.apache.commons.io.IOUtils 
import java.net.URL 
import java.nio.charset.Charset 

// Zeppelin creates and injects sc (SparkContext) and sqlContext (HiveContext or SqlContext) 
// So you don't need create them manually 

// load bank data 
val bankText = sc.parallelize(
    IOUtils.toString(
     new URL("https://s3.amazonaws.com/apache-zeppelin/tutorial/bank/bank.csv"), 
     Charset.forName("utf8")).split("\n")) 

case class Bank(age: Integer, job: String, marital: String, education: String, balance: Integer) 

val bank = bankText.map(s => s.split(";")).filter(s => s(0) != "\"age\"").map(
    s => Bank(s(0).toInt, 
      s(1).replaceAll("\"", ""), 
      s(2).replaceAll("\"", ""), 
      s(3).replaceAll("\"", ""), 
      s(5).replaceAll("\"", "").toInt 
     ) 
).toDF() 
bank.registerTempTable("bank") 

あなたは、この使用してスパークSQLを参照することができます

関連する問題

 関連する問題