SitecoreのLucene検索エンジンでPDF文書またはWord文書を索引付けすることが可能かどうかを調べたいと思いますか?私はこの文書(http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf)のSitecoreサポートサイトを見てきましたが、カスタムコードを書くことによってこれを達成することしかできないことを私に示唆するファイルクローラークラスを作成することに言及しています。私はこれを行うカスタムコードを書く必要がある場合は、PDFドキュメントからテキストコンテンツを抽出するためにいくつかのAPIを持っている必要がありますか?PDFまたはWord文書のSitecoreテキスト検索
3
A
答えて
3
私は最近、自分のプロジェクトで同様のことをしなければなりませんでした。 How to index Word 2003, 2007 and 2010 documents using Lucene.NETをご覧ください。
私はMS Officeドキュメント(XP、2003,2007および2010形式)とPDF文書を取り扱うカスタムインデクサーを作成することになった:あなたが建てIFilter
Sを使用することができますインデックスXP-2003 MS Office文書の場合
- をOSに私は強くFoxit PDF IFilterを使用することをお勧めインデックスPDFドキュメントの場合Microsoft Office 2010 Filter Packs
- をインストールする必要がありますインデックスのために2007年から2010年のMS Officeドキュメントを
- (Windows Server 2003またはそれ以降を使用していると仮定)。無料ではありませんが、Adobe PDF IFilterよりはるかに優れた仕事をします。
注:のAdobe PDF IFilterはとあなたの時間を無駄にしないでください:それは有効なPDFファイルを読むために失敗し、たくさん遅くなります。 Foxit IFilterは、マルチコアCPUを活用するように設計されており、大規模な文書ではるかに優れたパフォーマンスを発揮します。
関連する問題
- 1. Word文書のヘッダーセクション内のテキストを検索する
- 2. Apache SolRを使用したMicrosoft Word文書の全文検索
- 3. 文書検索(PDF、XML、HTML、MS Word)の検索を実装する最良の方法は何ですか?
- 4. PDFテキスト検索C#
- 5. C#Word文書のテキストを検索して置き換える別の方法
- 6. テキストをWord文書の画像で検索して置換する
- 7. キュウリルビー読み込みWord文書またはテキスト
- 8. PDF文書内のハイパーリンクを検索していますか?
- 9. 索引付けのためのシェルスクリプトからのエラスティック検索PDF文書
- 10. PDF文書内のギリシャ文字を検索する
- 11. Sitecore Multilist with sitecore以外の検索データソース
- 12. excelからWord文書を検索して開く
- 13. PDFでテキストのないページを検索
- 14. Sitecore - ページ検索とアイテム検索
- 15. word文書をperlのpdfファイルに変換するには?
- 16. ソート文書:検索
- 17. MS Word VbaコマンドボタンWord文書にテキストを挿入する
- 18. Excel VBでWord文書フッターで検索と置換を実行します
- 19. Excel 2003でWord文書を検索し、発生数を返します
- 20. C言語でPDF文書をプログラムで検索する方法
- 21. Google検索結果in SiteCore
- 22. VB.net 2008文書の検索
- 23. ファイルシステムの文書を検索
- 24. 特定のテキストのWordテーブルからの検索Python docx
- 25. 検索可能なPDFファイル(画像+テキストPDF)
- 26. 最初のWord文書ページのみをPDFに変換する
- 27. MS Wordの検索方法
- 28. オープンWord文書
- 29. AppleScriptでindesign文書のリストからテキストを検索
- 30. Applescript Excelシートのテキスト文書を検索して置換する