2012-01-16 3 views
2

プログラムでHiveを使用してデータにアクセスする必要があります(クエリごとにGB単位のデータ)。私は、CLIドライバVs Hive JDBCドライバを評価していました。Hive JDBC対CLIクライアント

JDBCを使用する場合、トランジションサーバに余分なオーバーヘッドがあります&私はそれがどれほど重いかを理解しようとしています。また、複数のクライアントが単一のリフトサーバーに接続すると、単一ポイントのボトルネックになる可能性がありますか?あるいは、人々がHadoop上で複数のリサイクルサーバを設定し、ロードバランシングを行うのは一般的なプラクティスですか?

私はより高速なプロトタイプではなく、より良いパフォーマンスを求めています。 ありがとうございます。

答えて

0

パフォーマンスの観点から言えば、リトリーブサーバーはボトルネックとなる可能性があります。私は人々がmysqlのmetastoreと話す複数のリサイクルサーバーを設定しているのを見ました。このhttp://blog.milford.io/2011/07/productionizing-the-hive-thrift-server/.Hopeをご覧ください。

+0

あなたのリンクは機能しません! –

1

Shengjieのリンクは、これが適切に自動的linkifyかもしれワーク・しない:

http://blog.milford.io/2011/07/productionizing-the-hive-thrift-server/

+0

あなたが提供したリンクのウェブページは、「このページは表示できません」と表示されます。役に立つリンクを提供できますか? –

0

あなたは、接続プーリングを使用して試すことができます。私は同様の問題を抱えていましたが、ハイブのクエリを提出するには、ハイブライブよりもJDBCの方が時間がかかっていました。

ます。jdbc:hive2://サーバー名:; hive.execution.engine = TEZ; tez.queue.name = ALT; hive.exec PORTNO /接続文字列でも

は、以下のようにいくつかのパラメータに言及します。 parallel = true; hive.vectorized.execution.enabled = true; hive.vectorized.execution.reduce.enabled = true;