C#.Netの大量のアラビア語のコンテンツ文書(PDFとDocファイル)でのテキスト検索の問題に直面しています。Xapian vs Lucene.Net - アラビア語文書のテキスト検索
はたくさんとたくさん検索した後、私は2つのソリューション、
まず、Lucene.Netを思い付いたと私は、次の問題にはLuceneで使用する
の1-アラビアアナライザに直面していました。ネットは、thisを見つけましたが、それが動作するかどうかはまだ分かりません!
2文書(約6000のPDFファイルとDocファイル)からテキストを抽出し、ikvmの助けを借りて.Netで使用するTikaを見つけました。 しかし、このソリューションがうまくいくことを考えれば、パフォーマンスは分かります。
第二に、Xapianのと私はインオーダーオメガライブラリを利用するには、このソリューションに移動し、まだいくつかの問題
1-アラビア語のコンテキストで作業をXapianのだろうか、それはアラビアアナライザを必要としますましたもしそうなら、どうすればこの問題を回避できますか
本当に、アラビア語のコンテンツと大量のデータに関してはどの解決策をとるべきかを決めることはできません。
すべてのヘルプや提案が非常に高く評価され、
おかげで、
SAMER
Solrは3段階でテキストを抽出し、次にインデックスを作成して検索することができますか? –
はい、そのように動作します。 https://issues.apache.org/jira/browse/SOLR-205 – Peyman