2016-05-18 8 views
0

私はElasticsearchとHadoopを掘り始めます。私はこれらの2つの概念について少し失われています。私はElasticsearchがHadoopエコシステム(HDFS、Spark、HBase、Hiveなど)と話をしている(いつも限られた知識によってバイアスされている)「いつも」であることを発見しました。最初は、ElasticsearchがHadoopエコシステムの一部だと思ったが、間違っていたようだ。弾性検索とHadoop?

検索エンジンを実装するタスクがある場合は、インデックス作成とデータの格納にElasticsearchを使用するだけで十分です。それでは、この仕事にHadoopを活用する理由がありますか? HDFSとElasticsearchの両方を使用してデータを保存すると、物理的に2つのフォーマット(HDFS用とElasticsearch用)でデータが重複して保存されますか?

答えて

2

Elasticsearchは、全文検索エンジンである。それはそれ自身で動作します。検索エンジンとして使用する場合は、スタンドアロンで使用できます。 Elasticsearchとhadoopの間に直接の関係はありません。しかし、一緒に使うことができます。既にhadoopを使用していて、データに検索機能を追加したい場合は、elasticsearchでデータをインデックスに登録し、hadoopからクエリを実行できます。その目的のための製品があります:ES-Hadoop

0

Elasticsearchの強みは検索です - あなたがしたいのは、検索エンジンを実装することです - あなたはそれに固執することができます。 SparkやHadoopのようなものが来るのは、〜100k以上のオーダーのレコードやリターンで大規模な集計や計算が必要な場合です。これは、Elasticsearchが遅くなる場所です(クラスタのサイジングと仕様によって異なります)。高度な解析、集約、機械学習のために、Sparkを活用してその作業を行い、その結果をElasticに送って木場や他のユーティリティで視覚化しました。