R/pythonから使用するJDBC Spark接続を確立しようとしています。私はpyspark
とSparkR
の両方が利用可能であることを知っていますが、これらは対話型分析にとって特に適切です。私は、Tableau ODBC Spark接続にもっと類似したものを考えています。単純なランダムアクセスをサポートするために(私が理解するように)もっと軽量なものです。これは可能ですが、documentationがいくつかありますが、JDBCドライバの要件は何であるかはわかりません。JDBCスパーク接続
hiveとSparkのSQLを使用しているので、私はHive接続を確立するためにorg.apache.hive.jdbc.HiveDriverを使用する必要がありますか? hive.server2.thrift.http.portを使用しているときにspark固有の依存関係のためにHive接続(HiveServer2ポートを使用)に必要なhadoop-common依存関係をスワップアウトする必要がありますか?
また、接続機能のほとんどがHiveを活用しているようだから、Spark SQLをHiveではなくクエリエンジンとして使用する主なことは何ですか?