2016-09-14 7 views
2

私はSamba ODBCを使用してSpark Thrift ServerとTableauを統合することに成功しました。私は初期SQLの間にcache tableを使用しようとしましたが、これまでのところパフォーマンスは素晴らしいです。私は現在、データパイプラインを使用して頻繁に使用されるテーブルを更新するときに、それらをキャッシュしてキャッシュに残す方法を探しています。Spark Thrift ServerとTableau

私が直面している課題は、Tableauを経由してキャッシュテーブルがキャッシュに残っていることです。ただし、データピンプラインプロセスを作成してスパークジョブを送信すると、別のスパークコンテキストが使用されます。 誰でも、バックエンドプロセスを通じてリプレイサーバーコンテキストに接続する方法を提案できますか?

  1. spark-submitまたはsparkシェルからのリサイクルサービスを再利用する方法はありますか?
  2. 私のデータパイプラインの終わりには、リリーフサービスに接続してキャッシュをリフレッシュする簡単なシェルスクリプトを呼び出すことをお勧めしますか?

注:リサイクルサービスを開始するだけでなく、バ​​ックエンドのジョブを提出しながら、私は同じ糸のクラスタを使用していたように私のバックエンドとBIツールの両方が同じクラスタを使用している

おかげで、Jayadeep

答えて

1

あなたは同じURLに&資格情報を使用して、同じクラスタ上スリフトサービスに接続するためにbeelineを使用して試すことができます。データパイプラインの実行が完了したら

UNCACHE TABLE MyTable; 
CACHE TABLE MyTable; 
+0

ありがとうございました。私は既に同じことを実装しました。 – jjayadeep

関連する問題