私は、さまざまな方法でHbaseから読み書きするKafka、storm、spark(ストリーミングとバッチ)を使用しているAWSベースのデータ処理パイプラインのベストプラクティスについていくつかのリソースを探しています。マイクロ・サービスを使用してデータ・レイヤーを公開します。私のローカルenvでは、私はenvとやりとりすることを可能にするドッカーやぼかし画像の作成を考えています。私の問題は、環境にやさしく機能しているエンド・エンド・エンド環境のために何かスタンドアップする方法になります。ドロップ・デッド・ウェイは常時稼働しているが、それは高価になります。 perf環境では同じ行に沿って、私はパントして、「世界の走り」を持つことができるサービスアカウントを持っているかもしれないが、コンピューティングリソースによって制限されてクラスタを圧倒しない他のアカウント。大きなデータ統合テストのベストプラクティス
他の人が同じ問題をどのように処理しているのか、私がこれを後ろ向きに考えているのが不思議です。