2011-07-14 10 views
0

C#.Netの大量のアラビア語のコンテンツ文書(PDFとDocファイル)でのテキスト検索の問題に直面しています。Xapian vs Lucene.Net - アラビア語文書のテキスト検索

はたくさんとたくさん検索した後、私は2つのソリューション、

まず、Lucene.Netを思い付いたと私は、次の問題にはLuceneで使用する

の1-アラビアアナライザに直面していました。ネットは、thisを見つけましたが、それが動作するかどうかはまだ分かりません!

2文書(約6000のPDFファイルとDocファイル)からテキストを抽出し、ikvmの助けを借りて.Netで使用するTikaを見つけました。 しかし、このソリューションがうまくいくことを考えれば、パフォーマンスは分かります。

第二に、Xapianのと私はインオーダーオメガライブラリを利用するには、このソリューションに移動し、まだいくつかの問題

1-アラビア語のコンテキストで作業をXapianのだろうか、それはアラビアアナライザを必要としますましたもしそうなら、どうすればこの問題を回避できますか

本当に、アラビア語のコンテンツと大量のデータに関してはどの解決策をとるべきかを決めることはできません。

すべてのヘルプや提案が非常に高く評価され、

おかげで、

SAMER

答えて

0

あなたがnLuceneを使用する場合は、アラビアアナライザを作成する必要がありますが、Imはアラビア語でSolrとその作業罰金を使用して言語。チェックthis topic

+0

Solrは3段階でテキストを抽出し、次にインデックスを作成して検索することができますか? –

+0

はい、そのように動作します。 https://issues.apache.org/jira/browse/SOLR-205 – Peyman

関連する問題