1
PySparkで分類モデルを作成したいと思います。このモデルへの私の入力は、ハイブまたはインパラからの選択されたクエリまたはビューの結果です。このクエリをPySparkコード自体に含める方法はありません。PySparkとHIVE/Impala
PySparkで分類モデルを作成したいと思います。このモデルへの私の入力は、ハイブまたはインパラからの選択されたクエリまたはビューの結果です。このクエリをPySparkコード自体に含める方法はありません。PySparkとHIVE/Impala
はい、これはsparkContextでHiveContextを使用する必要があります。
sqlContext = HiveContext(sc)
tableData = sqlContext.sql("SELECT * FROM TABLE")
#tableData is a dataframe containing reference to schema of table, check this using tableData.printSchema()
tableData.collect() #collect executes query and provide all rows from sql
またはあなたがここに https://spark.apache.org/docs/1.6.0/sql-programming-guide.html
おかげで迅速な応答のために多くのことを指すことがあり - :ここで は一例です。 tableDataはモデルデータの入力データになりますか?私の全目的は、私の回帰モデルが機能し、自分のデータセット(列車とテスト)に最新の更新されたレコードを含める必要があります毎日pysparkロジット回帰コードを実行することです –
@RRAMESHNAIKはいテーブルのデータは、あなたのモデル。 –
本当にありがとうございました。もう一つは、データをRDDとして変換する必要があるということです。したがって、tableData.collect()の結果は生データまたは既にRDDです。私はRDDとしてそれを変換する必要がありますか? –