2017-06-04 10 views

答えて

2

Apache Hiveデータウェアハウス・ソフトウェアは、分散ストレージに存在し、SQL構文を使用して照会される大規模なデータセットの読み込み、書き込み、および管理を容易にします。 ApacheのHadoopの上に構築され

、ハイブは、以下の機能を提供:報告、従って、このような抽出/変換/ロード(ETL)などのデータ・ウェアハウスのタスクを有効にする、SQLを介して、データへの容易なアクセスを可能にするために

  • ツール、およびデータ分析。
  • Apache HDFSまたはApache HBaseなどの他のデータストレージシステムに直接格納されたファイルへのアクセス
  • Hive LLAP、Apache YARN、およびApache Sliderを使用した2番目のクエリ検索。
  • Apacheのスパーク高速かつ汎用クラスタコンピューティングシステムである、ようにデータフォーマットの多様

に構造を課すためのメカニズム。 Java、Scala、Python、Rの高レベルAPI、一般的な実行グラフをサポートする最適化エンジンを提供します。また、SQL用のSpark SQLや構造化されたデータ処理など、豊富な高水準ツールセットをサポートしています。

Spark SQLは、メモリ内処理が核となる構造化データ処理用のSparkモジュールです。 Spark SQLを使用すると、JSON、CSV、寄木細工、avro、シーケンスファイル、jdbc、ハイブなどの構造化されたソースからデータを読み取ることができます。

Spark SQLを使用して既存のHiveインストールからデータを読み取ることもできます。したがって、Spark SQLは、構造化されたデータソースを処理するために使用できる一般化されたモジュールです。

関連する問題