私は、センサーデータと予測分析のためのビッグデータソリューションに取り組んでいます。 私はBig Dataを初めて使い、ラムダアーキテクチャについて読んだことがあります。 私はCassandra DatabaseをHadoopと一緒に使うことを考えました。 Cassandraは、高可用性およびパーティション耐性データベースであり、Hadoopは大規模な分析ジョブ用のファイルシステムです。cassandとhadoopを使用したビッグデータラムダアーキテクチャ
Thingsデバイスのインターネットからデータを受け取った場合、データはまずHadoopに保存してからCassandraに保存する必要がありますか? ラムダアーキテクチャでは、Hadoopがバッチレイヤにあり、データを受け取り、サービングレイヤに送信してnosqlデータベースに送ります。
なぜデータがHadoopで最初になるべきですか? とHadoopに生データが含まれている場合、どのようなデータがCassandraに保存されていますか?
現在ストリーム層のフォーカスが外れています。 私はCassandraとHadoopの使い方を一緒に理解したいだけです。
Hadoopのデータは大規模な分析用であり、cassandraのデータはHadoopのジョブの結果である必要があります。
これは、私が生データを両方に保存できることを意味しますか?大規模な分析ジョブが私のアプリケーションに役立つだけでなく、私の生データをCassandraとHadoopに保存できますか?
例
INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES (’1234ABCD’,’2013-04-03 07:02:00′,’73F’);
これは私のインサートであると私は1つの分でそれらの数千人を持っている場合。 私はHadoopを使用していくつかの大きな仕事をしたいですか?
また、私は分析のないアプリケーションのためにすべての単一のデータ行が必要です。カサンドラもそれを保管していますか?
ユーザーにリアルタイムで表示したいデータは、cassandraに保存する必要があります。 –
私は両方のデータとタイムスタンプを安全にすることができますか?さらに、大規模なデータセットで分析を行い、その結果を別のテーブルのcassandraに渡すことも可能ですか? – Khan
rawデータの解析をしたくない場合、どのようにデータがhadoopからcassandraに渡されますか?データを両方に渡す必要がありますか? – Khan