1
ストリーミングデータに対して実行される連続クエリの結果を分散ノードに永続化してフェールオーバーとスケーラビリティを確保する方法です。spark sqlの結果を構造化ストリーミングとOLAPクエリに格納するフェイルセーフ戦略
は、SQLの専門家をスパークすることができ にいくつかの光を当てるしてください - (2)一方のノードがダウンし 場合でも、クエリのために利用可能なデータを確実にするためにどのように - 私はそのOLAPクエリが 高速化され選択する必要があり、(1)どのストレージオプション - (3)内部的にSpark SQLは結果セットをどのように保存しますか?
おかげ Kaniska
**具体的には、** writeStream .format( "parquet")。オプション( "path"、 "path/to/destination/dir")**を使用すると、パーケットファイルの編集が行われます**クラスタ**のすべてのノードで自動的に複製されますか?出力シンクとフェイルオーバ、レプリケーションの**高速クエリーの両方を必要とする** –
'path/to/destination/dir'への書き込みのため、すべてのノードにレプリケートする必要はありません。すべてのパーティションに依存します。すべてのエグゼキュータが何らかのデータを取得するようにするには、独自のパーティション化ロジックを使用してデータを再分割することができます。これにより、すべてのマシンにデータの一部が確実に保持されます。 – Manas