2011-07-05 14 views
3

SitecoreのLucene検索エンジンでPDF文書またはWord文書を索引付けすることが可能かどうかを調べたいと思いますか?私はこの文書(http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf)のSitecoreサポートサイトを見てきましたが、カスタムコードを書くことによってこれを達成することしかできないことを私に示唆するファイルクローラークラスを作成することに言及しています。私はこれを行うカスタムコードを書く必要がある場合は、PDFドキュメントからテキストコンテンツを抽出するためにいくつかのAPIを持っている必要がありますか?PDFまたはWord文書のSitecoreテキスト検索

答えて

3

私は最近、自分のプロジェクトで同様のことをしなければなりませんでした。 How to index Word 2003, 2007 and 2010 documents using Lucene.NETをご覧ください。

私はMS Officeドキュメント(XP、2003,2007および2010形式)とPDF文書を取り扱うカスタムインデクサーを作成することになった:あなたが建てIFilter Sを使用することができますインデックスXP-2003 MS Office文書の場合

  • をOSに私は強くFoxit PDF IFilterを使用することをお勧めインデックスPDFドキュメントの場合Microsoft Office 2010 Filter Packs
  • をインストールする必要がありますインデックスのために2007年から2010年のMS Officeドキュメントを
  • (Windows Server 2003またはそれ以降を使用していると仮定)。無料ではありませんが、Adobe PDF IFilterよりはるかに優れた仕事をします。

注:のAdobe PDF IFilterはとあなたの時間を無駄にしないでください:それは有効なPDFファイルを読むために失敗し、たくさん遅くなります。 Foxit IFilterは、マルチコアCPUを活用するように設計されており、大規模な文書ではるかに優れたパフォーマンスを発揮します。

関連する問題