2017-10-11 8 views
0

私はsparkストリーミングがデータを処理するためにマイクロバッチを使用することを知っていますが、場合によっては1秒未満で処理が行われます。私の質問は、「そのシナリオでリアルタイム処理に近いものではなく、純粋なリアルタイム処理と呼ぶことはできないのですか?スパークストリーミングはなぜリアルタイムに近いと呼ばれていますか?

答えて

1

私は、データが収集され、ダッシュボードやシステムに直接プッシュされた場合、ETLプロセスを一切使用せずに、メトリック、アラート、最適化のリアルタイムについてのみ話すことができますが、リアルタイムの目的は、主に、速度。

履歴傾向またはベンチマークを抽出するバッチ処理のプロセスがある場合は、セカンド未満にもかかわらず、リアルタイムではなく近くにあります。これは、ほぼリアルタイムで話すためです。

質問に答えるには、バッチ処理しているため、リアルタイムに近いとは言えません。

私はそれが役に立ちそうです。

ファン

+0

ありがとうございました@Juan、それは疑いを解消します – dalonlobo

+1

私はビッグデータのエキスパートに尋ねました。彼はビッグデータでスパークストリーミングは精密さが近いのでリアルタイムに近いと考えていますStormや新しいSpark(Structured Streamming)のようなフレームワークでは、ビッグデータの純粋主義者がリアルタイムで呼ぶような、ナノ秒の精度で作業します。 – Juan

1

スパークストリーミング内部RDDS、各バッチ間隔のための1つのシーケンスであるDstreams呼ばX秒のバッチにデータストリームを分割します。各RDDには、バッチ間隔中に受信したレコードが含まれています。そのプロセスは、リアルタイムではなく、ほぼリアルタイムで呼び出されます。

+0

ありがとうございます@vaquarkhan – dalonlobo

関連する問題