0

AWS EC2上の7つのm4.2x Red HatインスタンスにHortonworkksデータプラットフォーム(HDP2.4)を導入しました。クラスタにはSparkがあり、クエリ用にTableauに接続してSparkを使用しています。私は質問の速度について尋ねられました、そして、私は質問の速度を見積もる方法がわかりません。どのような要素を考慮する必要がありますか、またはスパーククラスタのクエリ速度を知る直接的な方法はありますか?スパーククラスタのクエリ速度

答えて

0

私は同じ分析を行っています。 tableauレポートをレンダリングすると速度が遅くなるようです。したがって、スピードを分析するには、TableauをSpark Clusterに接続するログを調べる必要があります。

私たちの場合、それはThrift Server 2であり、ログは次の場所にあります。/var/log/spark/spark-root-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-<<ip>>.outログ名の最後にIPアドレスがあります。

ログを見ると、INFO SparkExecuteStatementOperation: Running queryとクエリが表示されます。ダッシュボードに対して実行されるクエリが多すぎます。

あなたは同じことについて高度な考えを得ることができます。詳細な分析を希望する場合は、Resource Managerの「Thrift Server」のステージをEMR Cluster Detailsページから確認してください。リソースマネージャーでは、クエリにも使用されているコンテナを見ることができます。

また、クエリを実行してSparkで同じことを実行し、その動作を確認することもできます。