2016-05-05 13 views
0

R/pythonから使用するJDBC Spark接続を確立しようとしています。私はpysparkSparkRの両方が利用可能であることを知っていますが、これらは対話型分析にとって特に適切です。私は、Tableau ODBC Spark接続にもっと類似したものを考えています。単純なランダムアクセスをサポートするために(私が理解するように)もっと軽量なものです。これは可能ですが、documentationがいくつかありますが、JDBCドライバの要件は何であるかはわかりません。JDBCスパーク接続

hiveとSparkのSQLを使用しているので、私はHive接続を確立するためにorg.apache.hive.jdbc.HiveDriverを使用する必要がありますか? hive.server2.thrift.http.portを使用しているときにspark固有の依存関係のためにHive接続(HiveServer2ポートを使用)に必要なhadoop-common依存関係をスワップアウトする必要がありますか?

また、接続機能のほとんどがHiveを活用しているようだから、Spark SQLをHiveではなくクエリエンジンとして使用する主なことは何ですか?

答えて

0

私が使用する必要があったURLが、ambariにリストされているHiveデータベースのホストURLと一致しませんでした。私は、どのように(具体的に私のクラスタに)接続するための例の正しいURLに出くわしました。適切なURLが指定されていれば、問題なくHiveDriverを使用して接続を確立することができました。