C#を使用してPDFの注釈のみを抽出して読み込む必要があります。PDFの注釈を抽出する
私はPDFBoxとitextsharpの両方を使用することで問題なくファイルを抽出できますが、注釈テキストまたは下線付きまたは色付き(強調表示された行)を読む必要があります。
C#を使用してPDFの注釈のみを抽出して読み込む必要があります。PDFの注釈を抽出する
私はPDFBoxとitextsharpの両方を使用することで問題なくファイルを抽出できますが、注釈テキストまたは下線付きまたは色付き(強調表示された行)を読む必要があります。
ページの実際のコンテンツ(ページのコンテンツストリームのPDF構文を使用して記述されたコンテンツ)とページに追加された注釈ページ辞書の/Annots
エントリ内のアノテーション辞書に記載されているコンテンツ)。
これまでのところ、アノテーション辞書のコンテンツを抽出していますが、アノテーションの/Rect
エントリを使用して、その場所が特定されたコンテンツストリームからコンテンツを抽出することも必要です。それを行うには、ページのコンテンツストリームを解析する必要があります。
official iText web siteに行くとよくある質問を読んで、より具体的にしてください:How to read text from a specific position?
はreader
があなたのPdfReader
インスタンスであるとし、rect
はあなたが抽出したいテキストの場所、およびpage
対応するページを定義Rectangle
です数は、その後、あなたはRenderFilter
を作成し、このようLocationTextExtractionStrategy
を使用することができます:PDFBoxのための答えは同じ再PDFファイルの内部で
RenderFilter[] filter = {new RegionTextRenderFilter(rect)};
ITextExtractionStrategy strategy =
new FilteredTextRenderListener(
new LocationTextExtractionStrategy(), filter);
String text = PdfTextExtractor.GetTextFromPage(reader, page, strategy));
。もちろん、コードは異なります。注釈領域から抽出するには、ソースコードのダウンロードからPrintURLsの例を参照してください。 –
@TilmanHausherr PrintURLのC#コードはありますか? – Ahmad
いいえ、javaのみ。しかし、C#とjavaはかなり似ています。 –