2017-02-22 19 views
1

PySparkで分類モデルを作成したいと思います。このモデルへの私の入力は、ハイブまたはインパラからの選択されたクエリまたはビューの結果です。このクエリをPySparkコード自体に含める方法はありません。PySparkとHIVE/Impala

答えて

0

はい、これはsparkContextでHiveContextを使用する必要があります。

sqlContext = HiveContext(sc) 
tableData = sqlContext.sql("SELECT * FROM TABLE") 
#tableData is a dataframe containing reference to schema of table, check this using tableData.printSchema() 
tableData.collect() #collect executes query and provide all rows from sql 

またはあなたがここに https://spark.apache.org/docs/1.6.0/sql-programming-guide.html

+0

おかげで迅速な応答のために多くのことを指すことがあり - :ここで は一例です。 tableDataはモデルデータの入力データになりますか?私の全目的は、私の回帰モデルが機能し、自分のデータセット(列車とテスト)に最新の更新されたレコードを含める必要があります毎日pysparkロジット回帰コードを実行することです –

+0

@RRAMESHNAIKはいテーブルのデータは、あなたのモデル。 –

+0

本当にありがとうございました。もう一つは、データをRDDとして変換する必要があるということです。したがって、tableData.collect()の結果は生データまたは既にRDDです。私はRDDとしてそれを変換する必要がありますか? –