HBFSとSparkとHDFSのスパーク

HBASEは、行の代わりに列ごとにHDFSにテーブルの構造化データを格納する列データベースです。私はSparkがHDFSから読み書きできることを知っています。また、Spark用のいくつかのHBASEコネクタがあり、現在はHBASEテーブルを読み書きできるようになっています。HBFSとSparkとHDFSのスパーク

質問：

1）の代わりに、単にHBaseのを使用するのではHBaseの上に火花を積層することによってもたらした追加機能は何ですか？それはプログラマーの能力にのみ依存するか、それを実行するパフォーマンスの理由がありますか？スパークができることはありますか、HBASEだけではできないことはありますか？

2）直接HDFSを使用するのではなく、HDFSとSPARKの間にHBASEを追加する必要がある場合は、前の質問からステミングしてください。

出典

2016-08-13 Johan

？ –

チェリー - 大量のバッチ処理を行う代わりに特定のレコードを選択 – Johan

どういう意味ですか？あなたは..を選んだ？ –

1）の代わりに、単にHBaseのを使用してののHBaseの上に火花を積層することによってもたらした追加機能は何ですか？それはプログラマの能力にのみ依存するか、それを実行するパフォーマンスの理由はありますか？スパークが行うことができるものはありますか？HBASEは単独で行うことはできませんか？

スプライスマシンでは、私たちはHBaseの上で私たちの解析にSparkを使用します。 HBaseには実行エンジンがなく、SparkはHBaseの上に有能な実行エンジンを提供します（中間結果、関係代数など）。 HBaseはMVCCストレージ構造体であり、Sparkは実行エンジンです。彼らはお互いの自然な相補物です。あなたの代わりに直接HDFSを使用しての HDFSとHBaseのSPARKの間を追加する必要があるとき

2）、前の質問からステミング？

小は、同時書き込み/読み取りパターン、増分更新（ほとんどのETL）

幸運を...読み込み

あなたの最終的な決定だったし、そのための理由何だったか質問番号2、のため

出典

2016-08-15 04:22:59

Hbaseは、高速な方法でデータを取得するのに適したSQLデータベースではありません。それはデータベースですが、データを保存するためにHfile（HDFSファイルに似ています）を多数使用し、レイテンシのアクセスは低かったです。

他の大きなデータでデータにアクセスする必要がある場合は、Hbaseを使用してください。一方

スパークは、メモリ内の分散コンピューティングHDFSへの接続を有するエンジン、HBaseの、ハイブはPostgreSQL、JSONファイル、寄せ木細工のファイル等ある点で最大HDFS file or Hbaseから読み取り中に全くかなりの性能の変化はありませんいくつかのgbs。その後、Hbaseの接続性が向上しています。

出典

2016-08-13 10:40:44

Apache HadoopやApache Sparkなどの分散コンピューティングエンジンを使用すると、基本的にすべてのデータソースをフルスキャンすることになります。それは一度にすべてのデータを処理する全体のポイントです。

HBaseは特定のレコードをチェリーピッキングするのに適していますが、HDFSはフルスキャンではるかに優れています。

HadoopまたはSparkからHBaseに書き込むと、通常はデータベースに書き込まれません。非常に遅いです！代わりに、データを直接HFilesに書き込んだり、一括インポートしたりしたいとします。

人々がSQLデータベースを発明した理由は、HDDが当時とても遅かったからです。ボトルネックリソース（ディスク）を巧みに利用するために、さまざまな種類のインデックスを作成するのに、最も巧みな人々が何十年もかかっていました。今ではNoSQLを発明しようとしています。連想配列が好きで、分散させる必要があります（つまり、NoSQLと同じです）。非常にシンプルで便利です。しかし、今日の世界では、SSDが安価であるため、誰もデータベースを必要としません。ほとんどの場合、ファイルシステムは十分です。分散コンピューティングを維持するために分散されなければならないということです。

は、元の質問に答える：

これらは完全に別の問題のための2つの異なるツールです。
私はあなたがデータ解析にApache Sparkを使用すると、HBase（Cassandraまたは他のデータベース）を避けなければならないと思います。集計されたデータを保持してレポートを作成したり、ユーザーやアイテムに関する特定のレコードを選択したりするのは便利ですが、処理後に発生します。

出典

2016-08-14 23:24:59 evgenii

HBFSとSparkとHDFSのスパーク

答えて

関連する問題