私はGoogleと数時間前からPDFMinerの限定されたドキュメントと戦っていますが、私は近いと感じていますが、私は必要なものを手に入れません。私はhttp://www.unixuser.org/~euske/python/pdfminer/とすべての3つのYouTube動画を使ってPDFについての理解を深めることができました。生のテキストをうまく出力することができました。PythonでPDFの物理座標からテキスト文字列を返します
私は複数のPDFページを解析するためのスクリプトを作成しています。残念ながら、このプロジェクトでは、低品質のPDFファイルを扱っています。テキスト文字列の物理的な位置はまったく同じです。テキスト文字列を物理的な座標で抽出できるというヒントを読んだことがありますが、実際の例はまだありません。
これはPDFMinerでどのように行われているかを明らかにしてくれる人がいますか?明らかに優れた選択肢があれば他のモジュールも公開していますが、スクリプトのためにPythonを使う必要があります。
さらに、私はPyPdfも(基本的なテキスト出力以外の)成功しないようにしました。
ありがとうございます!
リンクありがとうございます!私は最後のループから素敵なソートされたハッシュテーブルを引き出すことができました。私は、品質は、ドキュメント上でより良いと思う。正確な文字列抽出の点でPDFのように恐ろしいですね。特に、テキストバージョン/イメージバージョンを数回含む間に変換されたときは特にそうです。あなたがより良い提案をしているならば、私はすべて耳であり、そうでなければ、これは致命的な終わりだと思います。 – user1145643
私は別のツールを知りません。 PDFは、知っていたキャンバスレベルの形式には近すぎます。あなたの問題が単語の境界を検出している場合は、キャンバスを自分でモデル化しようと思います。文字の平均幅を見積もり、x座標のジャンプがスペースを意味するのを確認してください。他に考えられるのは、PDFを(有益に)PDFをタグ付きPDFに変換するツールを探すことだけです。おそらくAdobeが何かを提供しているかもしれませんが、あなたのファイルでも失敗する可能性があります。 – alexis