pdfファイルの "空の"ページを検索するにはどうすればよいですか? 次のステップでは、これらのページをghostscriptを使用して.tiffに変換したいと考えています。 UNIXマシン上で1つのコマンドですべてを行うことが可能なら、それは完璧です。PDFでテキストのないページを検索
0
A
答えて
0
これは、大部分が「テキスト」(件名の行)または「空の」ページ(本文のテキスト)の意味によるものです。テキストの形を再現するベクトルパス、または実際に文字の形を再現するイメージを完全に持つことができます。
これは「テキスト」とみなされますか?
または、コンテンツがまったくない(空の)ページを探していますか?なぜそれらをTIFFにレンダリングしたいのか想像できません.....
テキストがない(すなわち、PDFテキスト演算子を使用していない)ページでは、Ghostscriptでテキスト抽出デバイスを使用します。そのデバイスからの出力が空のページにはテキストがありません。
次に、PDFファイルでGhostscriptを実行し、-sPageListスイッチを使用して必要なページだけを処理し、TIFF出力を取得するためにTIFFデバイスの1つを選択できます。
テキストを含むページを特定するためにテキスト抽出デバイスが必要であり、次にページを書き込むためにTIFFデバイスが必要なため、これを1回のパスで実行することはできません(修正されていないGhostscriptを使用)。
TIFFに出力する新しいデバイスを書き込み、デバイスのtext_begin()メソッドが呼び出された場合は、単にページの書き込みをスキップします。これは1回のパスで行いますが、新しいデバイス(99%はTiffデバイスのコピー+ペースト)を作成し、Ghostscriptを再構築することを意味します。あなたはもちろん、あなたのコードをAGPLする必要があります。
関連する問題
- 1. PDFテキスト検索C#
- 2. Webページの検索テキスト
- 3. 検索可能なPDFファイル(画像+テキストPDF)
- 4. xパスを使用しないhtmlページのテキストの検索
- 5. 表示ページ番号とともにPDFの検索テキストを表示
- 6. PHPでPDFファイルを検索
- 7. テキストでテキストを検索
- 8. プログラムでPDFファイルのテキストを検索し、ページ番号を教えてください。
- 9. 検索ビューでテキストを検索する
- 10. 大きなファイルでフォルダを検索してテキストを検索
- 11. Marklogic PDFドキュメント検索
- 12. PDFファイルを開き、テキスト検索を実行する
- 13. イメージを検索可能なpdf
- 14. RubyでPDFを検索し、テキストをハイライト表示し、ページのJPGをエクスポートします
- 15. 検索テキスト機能付きWeb上にPDFファイルを表示
- 16. PDFまたはWord文書のSitecoreテキスト検索
- 17. Delphi - 大きなTMemoでテキストを検索
- 18. joomla検索ページ検索エンジンフレンドリー
- 19. 検索と崇高なテキスト
- 20. 簡単なテキスト検索Bash
- 21. Pythonを使用してPDF内のテキストを検索していますか?
- 22. C#PDFを検索する
- 23. PDFの検索からページ番号を記録する効率的な方法
- 24. C#で検索するが、テキスト検索では機能しない
- 25. オープンカート:検索結果ページから "検索 - "テキストとハイフンを削除するには
- 26. Python - NLTKでテキストを検索
- 27. Solrアンダースコア(_)でテキストを検索
- 28. Excelでテキストを検索
- 29. プロパティでのテキスト検索アクセスオブジェクト
- 30. PDFからテキスト(複数ページ)
申し訳ありませんが、私はスキャンしたドキュメントについて話しています。だからベクトル。 OCRがテキストを考えるすべてがテキストです。そして、私はテキストを表示しないすべてのページを抽出したいと思いますが、画像やスタンプでも、白でもかまいません。 あなたの答えをありがとう、今私はゴーストスクリプトに焦点を当てるべきデバイスを知っています(それは理解しにくいです)。 これは手作業でページを見つけて、imagemagickで抽出しました。 –