私は経験豊富なRDBMDの開発者と管理者です。しかし、私はApache CassandraとSparkには新しいです。私はCassandraのCQLを学びました。ドキュメントでは、Cassは結合されたデータ性質のためにCassandraではあまりにも非効率なので、CQLは結合とサブクエリをサポートしていません。Apache Cassandra and Spark
したがって、分散データ環境では、ジョインとサブクエリはパフォーマンスに悪影響を与えるため、サポートされていないと結論づけました。
しかし、Sparkは分散データでも動作しますが、Sparkは結合やサブクエリを含むすべてのSQL機能をサポートしています。 Sparkはデータベースシステムではないのでインデックスも持っていませんが...私の質問は、Sparkが分散データの結合とサブクエリをどのようにサポートしているのですか?それは効率的ですか?
ありがとうございます。