私はCSV形式のファイルで1ペタバイトのデータを検索する必要があります。 LUCENEを使用した索引作成後、索引ファイルのサイズは元のファイルよりも倍増します。インデックス付きファイルのサイズを減らすことは可能ですか? HADOOPでのLUCENEインデックスファイルの配布方法と検索環境での使用方法それが必要なのですか?私はsolrを使ってLUCENEインデックスを配布すべきですか?私の要件は、ファイルのペタバイト以上のインスタント検索を行っています....データのペタバイト単位でインスタント検索
答えて
あなたが持っているデータのサイズ以上の検索機能を提供することができる必要があります棚の検索エンジン(Luceneのような)インデックスを設計して検索の仕組みを設定するには、ちょっとした作業が必要になるかもしれませんが、これは単なる設定です。
あなたはすぐに結果を得ることはできませんが、をすばやく得ることができるかもしれません。結果速度はおそらく設定方法や実行するハードウェアの種類によって決まります。
インデックスは元のデータよりも大きいと言います。これは予期されることです。索引付けには、通常、ある形式の非正規化が含まれます。索引のサイズは、しばしば速度とのトレードオフです。事前にデータをスライスしてダイスする方法が増えるほど、参照を見つけるのが早くなります。
最後に、インデックスの配布について言及していますが、これはほぼ確実にではありません。何かしたいことです。多くのペタバイトのデータを配布することの実用性はかなり難しいです。おそらく、大規模な太いコンピュータにどこかにインデックスを置いて、データに検索サービスを提供する(クエリにデータを持ち込む、データをクエリに渡さない)ことが、おそらく必要です。
Qwerkyありがとうございます。もう一つの疑問、luceneとhadoopを統合する方法は? LuceneでHadoopをどの部分で使うことができるのですか?データのペタバイトがHadoopファイルシステムだけで配布されているので.... – Nageswaran
ハープと統合してLuceneでMap/Reduceを使用することはできますか? – Nageswaran
HadoopとMap Reduceは、バッチ処理モデルに基づいています。あなたはすぐに応答スピードを出すつもりはありません。それは単にツールが設計したものではありません。 Hadoopでインデックス作成のスピードを上げることは可能かもしれませんが、クエリに必要なことはしません。
LuceneのカサンドラベースのバックエンドであるLucandraをご覧ください。 CassandraはFacebookで開発された別の分散データストアで、hadoopよりも多くのクエリ指向のアクセスモデルでより高速なアクセス時間を実現するように設計されています。
実装を変更しないようにするには、luceneインデックスを10個、20個またはそれ以上のインデックスに分解し、それらを並行してクエリする必要があります。私の場合(私は8つのインデックスを作成しました)、80GBのデータがあり、デベロッパーマシン(Intel Duo Core、3GB RAM)で動作する検索を実装する必要がありました。
- 1. jQueryのインスタント検索
- 2. ReactiveUI 6インスタント検索(MVVM)
- 3. php jquery jsonインスタント検索
- 4. ページ単位での検索 - JS
- 5. algoliaインスタント検索で外部キーで検索する方法は?
- 6. jQueryインスタント検索スクリプトタブの修正
- 7. Algoliaのインスタント検索で、各ユーザーのfirebase uidで検索する方法は?
- 8. 弾性検索ジオロケーション検索でマイル単位の結果が返されない
- 9. インスタント検索でのajaxコールの数を減らす
- 10. Python Pandas複数のインデックスで時間単位で検索
- 11. nedtrieでの検索操作の複雑さ(ビット単位のトライ)
- 12. オーバーパスターボでの位置検索
- 13. マトリクス(matlab)で列単位で整数を列方向に検索
- 14. MySQLで時間単位でグループを検索する
- 15. Algolia Reactインスタント検索 - ネイティブ反応 - 'query'検索パラメータが動作しない
- 16. mongoosastic + AJAXでインスタント検索を行うには?
- 17. Algolia Reactインスタント検索でグリッド結果を表示
- 18. テキストファイル内の単語の頻度を行単位で検索するC++
- 19. Google手動検索 - 年単位でフィルタリングする方法
- 20. MySQLテーブルの情報を含むHTMLテーブルのインスタント検索バー
- 21. Googleのインスタント検索のように作成するには?
- 22. PHP、jQuery - インスタント検索の実現について
- 23. 日付範囲と日単位のレコードの検索方法
- 24. 特定の項目のグループ単位で行単位の重複を検索します。
- 25. PHP/Javascript - インスタント検索は異なりますか?
- 26. グリフをデータ単位でスケーリングする(スクリーン単位ではない)
- 27. Jacksonを使用してインスタントをミリ秒単位でシリアル化しますか?
- 28. Pythonで単語を検索
- 29. Google検索の検索クエリのデータ
- 30. インスタント検索では1つのアイテムのみが返されます
「インスタント」とはどういう意味ですか? google/yahoo /任意の検索エンジンスタイルで何かしたいのであれば、解体前にアーキテクチャを研究することをお勧めします。 – Riduidel
うん、類似Googleのインスタント検索。しかし、ここでの要件は、クエリーを変更するとすぐに、クエリーに基づいてcsvファイルを検索してグラフを描くことです。グラフも変更する必要があります。 – Nageswaran