2011-07-02 8 views
2

私は解析済みのサイトログを格納するためにCassandraを使用しています。私は複数の二次インデックスを持つ2つの列ファミリを持っています。ログデータのサイズは約30 GBです。しかし、cassandraデータディレクトリのサイズは91gです。この店舗の規模を縮小する方法はありますか?また、複数のセカンダリインデックスを持つことは、データストアのサイズに大きな影響を与えますか?Cassandraデータストアのサイズ

答えて

4

潜在的に、二次インデックスは大きな影響を与える可能性がありますが、明らかにそれはあなたが入れているものによって異なります。ほとんどのデータエントリが1つ以上のインデックスに表示される場合、インデックスはストレージのかなりの部分を占める可能性があります。

各列ファミリがJConsoleおよび/または 'nodetool cfstats'を使用しているかどうかを確認できます。

また、ディスクデータファイルのサイズを見て、使用方法を知ることもできます。

データが十分に頻繁にフラッシュされていない可能性もあります。これは、余分なスペースを占有して、長い時間ディスクにコミットログファイルが残ってしまう可能性があります。これは、列ファミリの一部が軽くロードされている場合に発生します。これを調整するパラメータについては、http://wiki.apache.org/cassandra/MemtableThresholdsを参照してください。

小さな列の数が非常に多い場合は、列の名前がストレージのかなりの部分を占める可能性があるため、タイムスタンプやその他の意味のあるデータではない場合は、短縮する価値があります。 。

+1

偉大な先端DNAのおかげで!私はいくつかの分析を行い、スナップショットが多くのスペースを取っていることを発見しました。 –

+0

良い点 - nodetoolを使用してスナップショットをローカルおよびグローバルに削除することも、手動で削除することもできます。 – DNA

関連する問題