SparkとCassandraの組み合わせが比較的人気が高いことが分かりました。CassandraでSparkを使用するメリット
私はCassandraが一貫性よりも信頼性が高く、リアルタイムシステムに適したBigDataソリューションであることを知っています。それはまた、クエリのためのSQLのような構文を提供しますが、フードの下では、通常のDBとは非常に異なるデータを管理します。
一方、Hadoopは信頼性の一貫性を提供するため、分析システムに適しています。そのインタフェースはMapReduceですが、これは現在かなり遅く、低レベルです。 SparksはHadoopのHDFSを使用しています。古いMapReduceを、ハードディスクよりもメモリをより有効に活用し、RDDやデータフレームなどの優れたインタフェースを提供する優れたアーキテクチャに置き換えています。
私の質問は なぜカッサンドラと組み合わせたスパークを使用したいのですか?それの利点は何ですか?なぜ彼らの1つだけを使用しないのですか?
私が理解する限り、CassandraはHDFSを置き換えるだけなので、一貫性に対する信頼性があり、CQLではなくRDD/dataframesを使用しなければならず、sparkはCQLを生成し、私にはより少ない制御しか与えられない。