Xapian vs Lucene.Net - アラビア語文書のテキスト検索

C＃.Netの大量のアラビア語のコンテンツ文書（PDFとDocファイル）でのテキスト検索の問題に直面しています。Xapian vs Lucene.Net - アラビア語文書のテキスト検索

はたくさんとたくさん検索した後、私は2つのソリューション、

まず、Lucene.Netを思い付いたと私は、次の問題にはLuceneで使用する

の1-アラビアアナライザに直面していました。ネットは、thisを見つけましたが、それが動作するかどうかはまだ分かりません！

2文書（約6000のPDFファイルとDocファイル）からテキストを抽出し、ikvmの助けを借りて.Netで使用するTikaを見つけました。しかし、このソリューションがうまくいくことを考えれば、パフォーマンスは分かります。

第二に、Xapianのと私はインオーダーオメガライブラリを利用するには、このソリューションに移動し、まだいくつかの問題

1-アラビア語のコンテキストで作業をXapianのだろうか、それはアラビアアナライザを必要としますましたもしそうなら、どうすればこの問題を回避できますか

本当に、アラビア語のコンテンツと大量のデータに関してはどの解決策をとるべきかを決めることはできません。

すべてのヘルプや提案が非常に高く評価され、

おかげで、

SAMER

あなたがnLuceneを使用する場合は、アラビアアナライザを作成する必要がありますが、Imはアラビア語でSolrとその作業罰金を使用して言語。チェックthis topic

2011-07-14 07:01:08 Peyman

Solrは3段階でテキストを抽出し、次にインデックスを作成して検索することができますか？ –

はい、そのように動作します。 https://issues.apache.org/jira/browse/SOLR-205 – Peyman

答えて