新しい用語を聞いたデータ湖。私はグーグルでそれを得たHadoop Vs Data Lake
データレイクは、大規模なストレージリポジトリと処理エンジンです。データレイクとは、あらゆる種類のデータ、膨大な処理能力、事実上無限の並行タスクやジョブを処理する能力のために大量のストレージを提供します。データレイクという用語は、しばしばHadoop指向のオブジェクトストレージに関連付けられます。このようなシナリオでは、まず組織のデータがHadoopプラットフォームにロードされ、次にビジネスアナリティクスとデータマイニングツールがHadoopの汎用コンピュータのクラスタノードにあるデータに適用されます。
同じことがHadoopによって行われます。私たちはHDFS for StorageとMapReduce for Computationを持っています。 HadoopとData Lakeについて私は少し混乱しています。両方の違いは何ですか?もしそれらが同じであれば、なぜこの言葉が生まれるのか。またはデータ湖を定義する方法。
より多くのビジネスアナリティクスのフレームワークを選択して使用しますか?私が間違っていない場合、外部分析アルゴリズムをMapReduceに統合する方法についてのより深い理解が必要です。 – AchmadJP
私は今日それについて聞きました。 LOL –