私のNLP課題の1つでは、PDFファイルを読み込んで情報を抽出する必要があります。 Javaを使って私はPDFからテキストコンテンツを読み込み、NLPアルゴリズムをテキストに適用することができましたが、PDFのテーブルにある情報を抽出する必要がありますが、私はそれらを読み込もうとしていますが、フォーマット。どのように私はOpenNLP、GATE、これらを達成するためのスタンフォードNLPで任意のライブラリが利用可能な場合、PDF文書からテーブルを読むことができる任意のアイデア、または任意のヒント。NLPツールを使用してPDFからテーブルとイメージを読む
-1
A
答えて
1
残念ながら、構造体としてのテーブルはPDFに格納されません。テーブルがどこにあるのか、列がどこにあり、行がどこにあるのか把握するためには、深刻な座標計算を適用する必要があります。
PDFの場合、Apache Tikaには特別なテーブル処理はありません(MSWord、MSPPTなどの多くの形式ではありますが、PDFでは使用できません)。
PDFからテーブルとしてテーブルを抽出するには、tabulapdf; John Hewsonのrecommendationも参照してください。また、PDFからテーブルを抽出するための商用ツールもあります - Abby Finereader、Nuance * PDF製品。
関連する問題
- 1. iTextを使用してpdfを読む
- 2. pdftoolsを使用してPDFからテーブルを読み取る
- 3. PDFでテーブルを読むItextsharp
- 4. イメージを含むpdfの読み込み方法、javaのitextを使ったテーブル?
- 5. PDFファイルから読む
- 6. イメージを行列として読む(Java)
- 7. pdfファイルを読むpowershellスクリプトを使用してカスタムドキュメントのプロパティ
- 8. セレンを使用してPDFファイルを読む方法
- 9. javascriptを使用してPDFファイルを読む
- 10. Googleドキュメントを使用してwebviewにPDFを読み込むgview
- 11. urllib2を使用してリモートでpdfを読む
- 12. スタンフォードNLP Webツール?
- 13. AndroidからPDFファイルを読む
- 14. psqlデータベースからPDFファイルを読む
- 15. LOGSTASHからPDFコンテンツを読む
- 16. S3バケットからPDFファイルを読む
- 17. .NETのPDFからテキストを読む
- 18. phpを使用してpdfファイルからコンテンツを読むことはできますか?
- 19. PDFをテキストに変換してアンドロイドから読む
- 20. JavaScriptを使用して.pdfと.Docfileを読み込む方法は?
- 21. React Nativeを使用してImages.xcassetからイメージを読み込むことができませんか?
- 22. httpsウェブページからreadHTMLTableを使ってテーブルを読む
- 23. Pythonを使用してimage_data_layerにイメージとラベルを読み込む方法は?
- 24. androidでiTextを使用してPDFファイルを読むか開きます
- 25. PHPのPDFコンテンツからPDFタイトルを読む
- 26. Python - PDFを読む
- 27. Linqを使用して複数のテーブルを読む
- 28. htmlテーブルをPDFまたはイメージとしてエクスポートするには?
- 29. C#を使用してPDFファイルからイメージを抽出する方法
- 30. dompdfを使用したpdfイメージのエラー
コメントをいただきありがとうございます。私は既にtabulapdfを評価し始めました。そのコードをtweekingして、テーブルの内容を取得することはできますが、完全にはできません。完了時に更新されます。 – Nitin