頻繁に発生する非正規化データの一括挿入と、頻繁に発生する挿入されたデータのクエリには、大きなデータストレージソリューションが必要です。頻繁なクエリのための大きなデータソリューション
私はCassandraを使い、バッチインサートには適していないが、クエリにはOKソリューションだと感じています。また、データ属性に基づいて別々にデータを分離する仕組みがあれば良いでしょう。
頻繁に発生する非正規化データの一括挿入と、頻繁に発生する挿入されたデータのクエリには、大きなデータストレージソリューションが必要です。頻繁なクエリのための大きなデータソリューション
私はCassandraを使い、バッチインサートには適していないが、クエリにはOKソリューションだと感じています。また、データ属性に基づいて別々にデータを分離する仕組みがあれば良いでしょう。
あなたがカサンドラに述べたように、私はそれについてお話します:
あなたはunbatched方法で挿入することができ、またはこれは、システムによってimpossedされますか?アンバッチを挿入することができれば、カッサンドラはおそらくそれを簡単に処理できます。
バッチインサートはCassandraノードでも扱えるはずですが、これはすべてのノード間でロードを適切に分散することはありません(注:ロードバランシングについては、データのバランスに関してではなく、パーティションキーの設定)。あなたがCassandraに慣れていない場合は、データ構造とクエリの種類を教えてください.Cassandraのデータモデルを使用する方法を提案することができます。
質問のフィルタリング部分については、Cassandraにはクラスタリングキーとセカンダリインデックスがあります。これは基本的にクラスタリングキーに別の列構成を追加してクエリを実行するのと同じです。
しかし、カサンドラを考えると、バッチのない挿入がロード(バランシング)問題を引き起こさないようにするには、データがどれだけ大きくても小さくても問題ではありません。 –
Cassandraのコーディネーター・ノードの概念を理解していますか? Cassandraのデフォルトのロードバランシングポリシーは、入力クエリをすべてのノード間で分割して複数のパラレルコーディネータノードとして機能させることです。なぜあなたはインサートをバッチ処理していますか?それはより良い挿入時間や交通の問題のためにしようとするのですか?カッサンドラは通常、バッチ処理されていないインサートよりも遅く処理されます。 – Adirio