私は、docparserを使用してPdfsからExcelへの変換を行っています。 しかし、docparserはスキャンしたpdfsを正しく処理できません。だから通常のpdfsからスキャンされたpdfsを分離し、通常のpdfsをdocparser(つまりAPI呼び出し)で処理したいだけです。 PDF形式(スキャン済みまたは通常)をプログラムで特定するためにいくつかの方法がありますか?私はさらに作業することができますか? 誰かがこの問題に取り組む方法を知っているなら、助けてください.....正常(検索可能)かスキャン(画像)かを問わず、プログラムで(Javaで)pdfを認識する方法は?
-1
A
答えて
0
最後に、私は私の質問に対する解決策を見つけました。しかし、標準的なものではありません。コメントして助けてくれた人々に感謝します。我々はスキャンしたPDFのページを抽出することができますし、それが叶うならば、ページを画像としてカウントされますと、私達ができる、画像オブジェクト(PDImageXObject)のインスタンスに各ページを比較しますPdfboxライブラリを使用して
それらの画像を数えます。 のイメージは、pdfのページ数に等しいです。 スキャンされたpdfと言います。ここ
が コード ...私の知る限りではpublic static String testPdf(String filename) throws IOException
{
String s = "";
int g = 0;
int gg = 0;
PDDocument doc = PDDocument.load(new File(filename));
gg = doc.getNumberOfPages();
for(PDPage page:doc.getPages())
{
PDResources resource = page.getResources();
for(COSName xObjectName:resource.getXObjectNames())
{
PDXObject xObject = resource.getXObject(xObjectName);
if (xObject instanceof PDImageXObject)
{
((PDImageXObject) xObject).getImage();
g++;
}
}
}
doc.close();
if(g==gg) // pdf pages if equal to the images
{
return "Scanned pdf";
}
else
{
return "Searchable pdf";
}
}
関連する問題
- 1. 検索可能なPDFファイル(画像+テキストPDF)
- 2. Java、Androidでプログラムで画像を作成することは可能ですか?
- 3. Ctrl + Fで検索可能な画像を作成する方法
- 4. アルゴリアの即時検索でクリック可能な画像を追加する方法
- 5. C言語でPDF文書をプログラムで検索する方法
- 6. JavaでPDFをスキャンする
- 7. exrファイルの検索方法はスキャンラインかタイル画像ですか?
- 8. ARCoreオブジェクト認識は可能ですか?
- 9. WinFormsで画面解像度認識プログラムを作成する方法
- 10. この検索方法はAccess VBAで可能ですか?
- 11. Pythonで画像/オンライン逆画像検索で検索|画像の広さを確認する
- 12. プログラムでPDFの型式を認識
- 13. 画像ファイルの内容を検出する:画像間でスキャンした文書を検索する
- 14. JavaでFrameを使わずにペイントすることは可能ですか?
- 15. 画像認識、始める方法
- 16. イメージを検索可能なpdf
- 17. プログラムで画像が表示されず、わかりません
- 18. Androidで画像認識アプリケーションを構築する方法
- 19. ARToolKitでUnityの画像を認識する方法
- 20. プログラムでGoogleに検索ボリュームを問い合わせるには
- 21. java swingで番号の検索可能なリストをプリントアウトする方法は?
- 22. スキャンした画像で有名なロゴを検索するには?
- 23. nGramファジー検索は可能ですか?
- 24. Pythonで画像を認識する
- 25. Windows Ink(手書き認識)を使用して画像を分析することは可能ですか?
- 26. スキャンされたPDFファイル(Java)から画像を作成して抽出する方法
- 27. 既存のpdfから選択可能で検索可能なpdfに印刷する
- 28. 追跡面を認識することは可能ですか?
- 29. ブラックベリーでカメラを使って画像をスキャンする方法は?
- 30. mvc5で検索可能なドロップダウンリストを作成する方法は?
で、PDFのレベルでは、その必要があるでしょう、そこ..「ノーマル」と「スキャン」PDFの間に違いはありませんので、発見的にそれをやらなければならない。たとえば、すべてのページに用紙サイズの90%以上の画像が含まれている場合、それはスキャンされたPDFであることを確信しています。 – xs0
スキャンされたpdfの中には、メタデータにスキャナブランドのタグがあります。それ。しかし、スキャナが作成されたpdfのメタデータを追加または変更しないと、それを特定するのは本当に難しいでしょう。 –
あなたの回答にお返事いただきありがとうございます。しかしTabula-PdfをExcelツールに使用してスキャンしたpdfをアップロードしたとき、「アップロードされたファイルがスキャンされた画像で、正しい結果が得られないかもしれません.... "スキャンされたPdfsを特定する方法は確かに存在すると思います... –