2016-12-08 8 views
0

私たちは、Hadoopののパフォーマンスは、より多くのデータノードを追加することによって増加させることができることを知っています。私の質問です:我々はそれを処理したり、それを分析する必要がなく、データを取得したい場合は、より多くのデータノードを追加すると便利ですか?計算を行わずに検索操作を実行したり、削減ジョブをマップしたりするため、パフォーマンスが向上しません。Hadoopのパフォーマンスデータを取得する場合のみ

答えて

0

私は部品に答えることを試みる:

  1. あなたが唯一のHadoopクラスタまたはHDFSから情報を取得した場合、その後 それだけでデータの読み出しを意味し、LinuxでCatコマンドに似て 処理していません。
  2. SUM、AVGまたはその他の集計のような計算がデータの上にある場合は、のREDUCEという概念があり、Map reduceが画像になります。
  3. あなたのデータは巨大であり、あなたはまた 計算を行う際にHadoopが便利か、価値があります。あなたが定期的にRDBMS であなたのデータを格納しているし、あなただけのクエリ日常的にselect *文のよう はHDFSで大量のデータ を読み込むよりも、HDFSで少量のデータを読みながら、私は(何のパフォーマンス上の利点は、彼らのではないと思うだけだと思います)、 あなたのデータが指数関数的に増加し、 計算を実行したい場合、RDBMSクエリの実行に時間がかかります。マップの
  4. は、巨大なデータセット上で効率的に動作するように減らし、あなたの ユースケースに応じて、 へのノードの良い量とコンピューティングパワーを持っている必要があります。
関連する問題