Hive内部テーブルにSpark DataFrameを挿入するにはどうすればよいですか？

Append ModeのHive InternalテーブルにDFを挿入する正しい方法は何ですか。私たちは直接 "saveAsTable"メソッドを使用してDiveをHiveに書くか、DFをtempテーブルに保存してからクエリを使用することができます。Hive内部テーブルにSpark DataFrameを挿入するにはどうすればよいですか？

df.write().mode("append").saveAsTable("tableName")

df.registerTempTable("temptable") 
sqlContext.sql("CREATE TABLE IF NOT EXISTS mytable as select * from temptable")

第2のアプローチは、レコードを追加したり、それを上書きしますか？

Hive InternalテーブルにDFを効果的に書き込む方法はありますか？

2017-02-14 Shankar

どのように（型）がテーブルに格納され、どこに格納されるかによって異なります。 – FaigB

df.saveAsTable("tableName", "append")は推奨されていません。代わりに、2番目の方法が必要です。

sqlContext.sql("CREATE TABLE IF NOT EXISTS mytable as select * from temptable")

テーブルが存在しない場合はテーブルを作成します。 2回目にコードを実行すると、既存のテーブルを削除する必要があります。それ以外の場合は、コードは例外で終了します。

別のアプローチでは、テーブルを削除したくない場合。テーブルを個別に作成し、そのテーブルにデータを挿入します。

以下のコードは、

sqlContext.sql("insert into table mytable select * from temptable")

既存のテーブルにデータを追加し、以下のコードは、この答えはスパーク1.6.2に基づいています

sqlContext.sql("insert overwrite table mytable select * from temptable")

既存のテーブルにデータが上書きされます。他のバージョンのSparkを使用している場合は、適切なドキュメントを確認することをお勧めします。

2017-02-14 09:59:04

ありがとう、その正常に動作します。 – Shankar

答えが書かれて以来、私のために働いているオプションもおそらく償却されていません。

df.write.insertInto(target_db.target_table,overwrite = False)

：（スパーク2.1用）の最新spark API docsによると、それは私がPython PySpark APIを使用していますが、それはScalaで同じになるDataFrameWriterクラスから

をinsertInto()方法を使用しています

上記は私のために働いた。

2017-07-11 22:07:33

答えて