私はSamba ODBCを使用してSpark Thrift ServerとTableauを統合することに成功しました。私は初期SQLの間にcache table
を使用しようとしましたが、これまでのところパフォーマンスは素晴らしいです。私は現在、データパイプラインを使用して頻繁に使用されるテーブルを更新するときに、それらをキャッシュしてキャッシュに残す方法を探しています。Spark Thrift ServerとTableau
私が直面している課題は、Tableauを経由してキャッシュテーブルがキャッシュに残っていることです。ただし、データピンプラインプロセスを作成してスパークジョブを送信すると、別のスパークコンテキストが使用されます。 誰でも、バックエンドプロセスを通じてリプレイサーバーコンテキストに接続する方法を提案できますか?
- spark-submitまたはsparkシェルからのリサイクルサービスを再利用する方法はありますか?
- 私のデータパイプラインの終わりには、リリーフサービスに接続してキャッシュをリフレッシュする簡単なシェルスクリプトを呼び出すことをお勧めしますか?
注:リサイクルサービスを開始するだけでなく、バックエンドのジョブを提出しながら、私は同じ糸のクラスタを使用していたように私のバックエンドとBIツールの両方が同じクラスタを使用している。
おかげで、Jayadeep
ありがとうございました。私は既に同じことを実装しました。 – jjayadeep