2016-03-14 21 views
7

新しい用語を聞いたデータ湖。私はグーグルでそれを得たHadoop Vs Data Lake

データレイクは、大規模なストレージリポジトリと処理エンジンです。データレイクとは、あらゆる種類のデータ、膨大な処理能力、事実上無限の並行タスクやジョブを処理する能力のために大量のストレージを提供します。データレイクという用語は、しばしばHadoop指向のオブジェクトストレージに関連付けられます。このようなシナリオでは、まず組織のデータがHadoopプラットフォームにロードされ、次にビジネスアナリティクスとデータマイニングツールがHadoopの汎用コンピュータのクラスタノードにあるデータに適用されます。

同じことがHadoopによって行われます。私たちはHDFS for StorageとMapReduce for Computationを持っています。 HadoopとData Lakeについて私は少し混乱しています。両方の違いは何ですか?もしそれらが同じであれば、なぜこの言葉が生まれるのか。またはデータ湖を定義する方法。

+0

より多くのビジネスアナリティクスのフレームワークを選択して使用しますか?私が間違っていない場合、外部分析アルゴリズムをMapReduceに統合する方法についてのより深い理解が必要です。 – AchmadJP

+0

私は今日それについて聞きました。 LOL –

答えて

9

データレイクは抽象的な「アイデア」です。 Hadoopは特定のテクノロジー/ソフトウェアです。ハイドープを使用して、または別のツールを使用してデータ湖を実装することができます。

+0

これはHDFSとデータレイクが同じであることを意味します –

+0

@KishoreKumarSuthar HDFSは単なるファイルシステムです。そうではありません。 – Havnar

+0

@Havnarウィキペディアによると、はい。 「データ・レイクの一例は、Apache Hadoopで使用される分散ファイル・システムです。 – Enrique

4

データ・レイクは、バリアント・スキーマおよび構造フォーム(通常はオブジェクトのblobまたはファイル)のデータの照合を容易にするシステム内のデータを格納する方法です。

データ湖の概念は、Apache Hadoopとそのオープンソースプロジェクトのエコシステムと密接に関連しています。データ湖に関するすべての議論は、Apache Hadoopエコシステムの力を使ってデータ湖を構築する方法の説明にすぐにつながります。大規模なデータの問題を解決するための費用対効果に優れ、技術的に実現可能な方法を提供するため、人気を集めています。組織 は、既存のデータアーキテクチャからの進化としてデータレーキを発見しています。

Following whitepaperは、Hadoopでデータレイクを構築するための奨励的な例として役立ちます。

1

私はその質問があまりにも好きだと言っています。

"Oracle vs Database"

データレイクは、システムまたはリポジトリ内にデータを格納するの方法です。 Hadoopはthecnologyを参照して、Hadoopはデータを格納するためのオープンソースのソフトウェアフレームワークです。 データレイクの1つの例は、Hadoopで使用される分散ファイルシステムです。

+2

データ湖は、Hadoopや他の技術でできることの1つですが、すべてのHadoopアプリケーションがData Lakeであるわけではありません。 – Rich