以下は、RDBMSに接続してテンポラリテーブルを作成し、そのテンポラリテーブルでSQLクエリを実行し、SQLクエリ出力を.csvフォーマットに保存するために書いたコードですスルーdatabricksモジュール。私はコードを実行した後sparkで既存のHIVE物語にcsvファイルをロードする
HIVE.DBは、既存のHIVEデータベース HIVE.TBLあるfrom pyspark import SparkContext
sc = SparkContext("local", "Simple App")
from pyspark.sql import SQLContext, Row
sqlContext = SQLContext(sc)
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
df = sqlContext.read.format("jdbc").option("url","jdbc:sqlserver://<server>:<port>").option("databaseName","xxx").option("driver","com.microsoft.sqlserver.jdbc.SQLServerDriver").option("dbtable","xxxx").option("user","xxxxx").option("password","xxxxx").load()
df.registerTempTable("test")
df1= sqlContext.sql("select * from test where xxx= 6")
df1.write.format("com.databricks.spark.csv").save("/xxxx/xxx/ami_saidulu")
df1.write.option("path", "/xxxx/xxx/ami_saidulu").saveAsTable("HIVE_DB.HIVE_TBL",format= 'csv',mode= 'Append')
は、既存のHIVE表
ですが、私はエラーの下に取得しています:
py4j.protocol.Py4JJavaError: An error occurred while calling o68.saveAsTable.
: java.lang.RuntimeException: Append mode is not supported by com.databricks.spark.csv.DefaultSource15
がいることをいつまり、databricksモジュールは "saveAsTable"関数をサポートしていませんか?
「はい」の場合は、自分のコードの間違いを指摘してください。 いいえの場合、解決策/回避策/業界標準は何ですか?あなたのテーブルが管理されていると仮定すると、
スパーク1.6.1
ハイブテーブルは外部で管理されていますか?間にcsvを書く理由はありますか?df.write.saveAsTable( 'HIVE_DB.HIVE_TBL'、write_mode = 'Append')だけではできませんか? – kutschkem
その管理されたテーブル、そしてはい、私はあなたのポイントを得ました。今すぐコードを実行すると、「SLF4J:クラス "org.slf4j.impl.StaticLoggerBinder"をロードできませんでした。 SLF4J:ノーオペレーション(NOP)ロガーの実装にデフォルト設定する " – user3521180
これはエラーですか、警告ですか?私は、コードはまだ動作するはずだと思うだろう、何もログに記録しないでください。 – kutschkem