特定の矩形領域内のPDF文書からテキストを抽出する必要があります。ワークフローは次のとおりです。まずpdfはjpg画像に変換されます。次に、選択矩形を画像の上に描画します。それから私は何とかその選択領域内のpdf docからすべてのテキストを抽出する必要があります。どのようなフリーウェアのPDFファイルのlibs C#からアクセスするために使用する任意の提案?どのように特定の矩形領域内のPDF文書からテキストを抽出するには?
答えて
私は同意しますが、OCRはここで使用する方法ではありません。バウンディングボックスの座標とともにテキストを抽出できるPDFライブラリが必要です。
QuickPDFは、非常にリーズナブルな$ 249の価格で必要な情報を抽出できる商用ライブラリ(www.quickpdf.com)です。 http://www.quickpdflibrary.com/help/quickpdf/DAExtractPageText.phpはあなたが探している機能です。これにより、ページ全体のテキストが抽出され、単純な点および/または四角形の関数を使用して、選択した四角形にテキストを制限する必要があります。
iTextが私の研究に基づいてこの機能を持っているとは思わない。
あなたの答えに感謝します。 – davidgale
PDFをJPEG画像にラスタライズして、テキスト認識(OCR)を使用して選択した領域内のテキストを抽出することをお勧めします。 .NET用のOCRライブラリについては、articleです。 PDFからテキストを抽出することに関しては、これがどのようにしてより確実に達成されるかを示すhere's an articleが関係しています。問題は、ユーザーが選択した矩形内のテキストをどのように認識するかにあります。
オプションではありません。私は100%の精度が必要です。 ocrは100%正確ではありません。 1つのpdf文書に複数の言語のテキストが含まれる場合があります。私が知る限り、一度に複数の言語をサポートする無料のライブラリがありません。 – davidgale
@davidgale、私は非常にこの種の問題のための無料の解決策が存在する疑いがあります。 2つ目のオプションを見てから、PDFからテキストを抽出し、あなたのケースで十分に確実に動作するかどうかを確認してください。それでもIMHOは簡単な作業ではない選択領域について把握する必要があり、これを実行できるフリーウェアライブラリは認識していません。 –
(免責事項を - 私はそのPDFの製品にAtalasoftのために働く)お読みください Atalasoft's PdfReaderはこれを行います。フリーウェアではありませんが、かなりうまく動作します。コードは次のようになります
using (PdfTextDocument doc = new PdfTextDocument(pathToFile)) {
PdfTextPage page = doc.GetPage(pageNumber);
string text = page.GetTextInBox(yourSelection);
}
完全itextsharpを用いて直交座標に基づいてPDFデータを抽出し、このコード
List<string> linestringlist = new List<string>();
PdfReader reader = new PdfReader(pdfFilename);
iTextSharp.text.Rectangle rect = new iTextSharp.text.Rectangle(coordinate1, coordinate2, coordinate3, coordinate4);
RenderFilter[] renderFilter = new RenderFilter[1];
renderFilter[0] = new RegionTextRenderFilter(rect);
ITextExtractionStrategy textExtractionStrategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), renderFilter);
string text = PdfTextExtractor.GetTextFromPage(reader, 1, textExtractionStrategy);
どの時点で 'linestringlist'を使用していますか? –
ここで 'linestringList'の使用は何ですか? –
- 1. PDF文書に無制限のテキスト領域を追加する
- 2. sierpinskiカーペット - 矩形の領域
- 3. PDF文書からテキストを抽出するには?
- 4. ICEpdfを使用してPDFページの特定の領域にテキストを抽出する
- 5. カーソルれる矩形領域
- 6. cv :: Matの矩形領域のディープコピーを作成するには?
- 7. 線を描く矩形領域によるCAShapeLayer層の色
- 8. 円と矩形の交点の領域
- 9. Emacsの矩形領域の除去
- 10. メモ帳++テキスト内の特定の領域を選択する
- 11. OpenGL 2D矩形領域のクリッピング
- 12. Swiftの文字列から特定のテキストを抽出する
- 13. 球の表面に矩形領域をプロットする
- 14. 非矩形の画像領域にスキマージを使用する
- 15. 興味のある領域のWebページ内の画像に矩形をマーク
- 16. UIImageViewから書かれた領域を抽出します
- 17. 記事テキスト領域に特定の幅を設定する
- 18. 画像内の特定の領域を抽出してさらに分類する
- 19. 文字列から特定のテキストを抽出する
- 20. pdf.jsを使用してPDFページの矩形領域を切り取る方法
- 21. イメージからすべての領域を抽出するにはどうすればよいですか?
- 22. Excelで矩形領域を選択
- 23. 特定の領域外のクリックにどのように反応しますか?
- 24. Pythonを使用してPDF内の特定の領域からテキストを抽出する方法は?私は、Pythonを使用してPDFからテキストを抽出しようとしている、と私は正常にこのようPyPDF2を使用して行っている
- 25. HTML5キャンバス内の特定の領域をクリアするにはどうすればよいですか?
- 26. ハイチャートのテキスト領域を複数のPDFファイルにエクスポートする
- 27. 大きなテキストコンテンツから特定のテキストを抽出するにはどうすればよいですか?
- 28. 文書からテキストを抽出/認識するには?
- 29. Word文書からRTF/HTMLテキストを抽出するには?
- 30. 領域回転矩形の非ゼロピクセルをカウントする
https://stackoverflow.com/q/20606467/1271037 – dovid
iTextSharpで指定された領域に含まれるテキストを取得する可能性があります(https://stackoverflow.com/questions/20606467/get-text-occurrences-contained-in-a-specified-area-withexiteharp) – bfontaine