2012-01-12 10 views
6

私は約1年のapache solrユーザーです。私は単純な検索ツールにsolrを使用しましたが、現在は5TBのデータでsolrを使用したいと考えています。私は、5TBのデータは、私が使用するフィルタに従ってsolrインデックスを作成すると、7TBになると仮定します。そして、同じインデックスに1時間あたり約50MBのデータを追加します。Apache SolrでTeraByteの大きなデータを処理できるか

1-5TBデータのシングルソルサーバーで問題がありますか。 (破片なし)

  • A-は、サーバーをSOLRできます7TBインデックス上の50メガバイトのデータのコミットのための予想時間が何であるかB-

  • 許容時間内にクエリに応答します。

  • c-インデックスサイズの上限はありますか?

2 - あなたはどのように多くの破片私は

  • B-を使用する必要があり、私はSolrのコア

  • C-を使用すべきA-

    • を提供する提案は何ですかあなたが提供したコミット頻度は何ですか?

    3-大きなデータ


    この種のいずれかのテスト結果は、使用可能な5TBデータはありませんがあります(1時間OKです)、私は結果がどうなるかを推定します。

    注:ハードウェアリソースは問題ではないと考えることができます。

  • +1

    あなたに質問します。 5TBの生データのインデックスを作成していると仮定すると、なぜ7TBに成長すると思いますか?検索フィールドを格納するのではなく、インデックスに完全なドキュメントコンテンツを格納することを意味すると思いますか?もしそうなら、私はSolrでの検索に必要なものだけを格納することをお勧めします。生の文書自体は他の所に属しています。 – rfeak

    答えて

    3

    あなたのサイズがバイナリファイルではなくテキストの場合(テキストは通常​​はそれほど多くないでしょう)、これを単一のマシンで行うふりをすることはできません。

    これは、Loglyとよく似ており、SolrCloudを使用してそのようなデータ量を処理します。

    すべてがリッチ・ドキュメントの場合、索引付けするテキストの合計サイズは、はるかに小さくなります(自分の開始サイズの約7%)。とにかく、その量が減っても、私は思う単一のインスタンスのために、あなたはまだ多くのデータを持っています。

    +0

    しかし、1時間あたり50MBというのは、1ヶ月あたり0.75TBではないことを意味します。それは0.075TBで、月額75GBを意味します。 – Mustafa

    +0

    どうして私の計算が間違っているのか分かりません。とにかく最初のデータが大きすぎると思います... – Persimmonium

    +0

    シングルソルバーサーバーの最適なデータサイズは何ですか? – Mustafa

    関連する問題