当社のサーバーにBig Data Clusterを導入する必要があります。しかし、私はApache Sparkの知識について知っています。今は、Spark SQLがApache ImpalaやApache Hiveを完全に置き換えることができるかどうかを知る必要があります。Spark SQLはApache ImpalaまたはApache Hiveを完全に置き換えますか?
私はあなたの助けが必要です。ありがとう。
当社のサーバーにBig Data Clusterを導入する必要があります。しかし、私はApache Sparkの知識について知っています。今は、Spark SQLがApache ImpalaやApache Hiveを完全に置き換えることができるかどうかを知る必要があります。Spark SQLはApache ImpalaまたはApache Hiveを完全に置き換えますか?
私はあなたの助けが必要です。ありがとう。
これは良い質問です。私はそうは思わない。スパークは他の2つよりも高速ですが、それでもそれぞれは独自の目的と作業方法を持っています。たとえば、クエリ言語に精通しているユーザーにとっては、HiveとImpalaが使用できるようになり、Sparkは最適化のためにHiveメタストアを使用できます。だから、私はそれが妥協しないと思う。
号Apacheのスパークは、ストリーミング、SQL、機械学習やグラフ処理のための組み込みモジュールと、ビッグデータ処理のための高速かつ一般的なエンジンです。
インパラ - ApacheのHadoopのためのオープンソース、分散SQLクエリエンジン。
ハイブ - Hadoopのと統合し、さまざまなデータベースやファイル・システムに格納されたデータを照会するためにSQLのようなインターフェース。
は参照してください:Differences between Hive and impala
Apacheのスパークは、さまざまなデータソースへのコネクタがあり、それがデータ上で処理を行います。 Hiveは、Sparkでのクエリ処理を高速化するクエリエンジンを提供します。
SparkSQLは、HDFSに格納されたデータのメタデータを取得するためにHiveMetastoreを使用することができます。このメタデータにより、SparkSQLは実行するクエリの最適化をより効率的に行うことができます。 Sparkはクエリプロセッサです。
は参照してください:Databricks blog
を私はリアルタイムのシナリオリアルタイム制作プロジェクトで
でこれを説明したいと思います:
ハイブは、データ/テーブルを格納し、アドホッククエリを実行するために主に使用されています組織が毎日データを増やしていて、RDBMSデータを使用して照会する場合は、HIVEを使用できます。
インパラは、開発者が統計に対してより傾斜している報告は、Pentahoのなど。とスパークはほとんど解析の目的で使用されているタブローのようないくつかのフロントエンドツールを介して行われるビジネスインテリジェンスプロジェクトのために使用されている
として、彼ら初期のデータフレームを作成するために、スパークを伴うR launguageを使用することもできます。
だから、「NO」であるスパークはハイブまたはインパラを置き換えることはありませんあなたの質問に答えます。 3つとも独自のユースケースとメリットを持ち、実装が簡単であるため、これらのクエリエンジンはハープープクラスタの設定に依存します。
http://db-engines.com/en/system/Hive%3BImpala%3BSpark+SQL
https://www.dezyre.com/article/impala-vs-hive-difference-between-sql-on-hadoop-components/180
:ここは、あなたがより明確に理解するのに役立ちますいくつかのリンクあり