2017-03-18 7 views
0

私は概念的な質問があります。 Apache SparkとHortonworks Hadoop Sandboxをダウンロードしました。私が知る限り、我々はタスクを複数のマシンまたはクラスタに分散することによって大きなデータを分析します。 Amazon Web Servicesは、顧客がサービスを支払う際にクラスタを提供します。しかしSparkやHadoopの場合、これらの環境をダウンロードするだけでクラスタを使用していますか?彼らは、これらの環境が単一ノードクラスタを提供していると言います。つまり、私は自分自身のコンピュータを想定しています。しかし、私が自分のコンピュータに限られている場合、大きなデータを分析するにはどうすればいいですか?要するに、私自身のラップトップでSparkを使用するロジックは何ですか?オープンソースSparkおよびHortonworksのHadoopサンドボックスでクラスタを使用するにはどうすればよいですか?

+0

クラスタを使用しています。単一ノードまたは複数ノード - 一部のディストリビューションには、1つのノードのみをサポートする「クイックスタート」VMがありますが、フルディストリビューションにはマルチノードのサポートが含まれています –

答えて

0

環境はまさに彼らが言うところのサンドボックスです。あなたが正しく言うように、彼らはあなたのラップトップを使い果たしているので、それは機能をテストするために使用することができますが、パフォーマンスはありません。 VMには、これを正確にテストするために必要なすべてのソフトウェアが設定されています。

sparkの本当の性能を得るには、hereという手順を使用してsparkをサーバのクラスタにインストールする必要があります。それであなたは本当にあなたのサーバからの計算能力を使用しますちょうどスパークをインストールしました。

希望に役立ちます!