PDFからテキストを読み込むと、Python3でどのように認識されますか?私はPython3がそれをどのように見ているのかを知りたいので、どの情報を探して保存するかを教えてください。Pythonで「見られた」PDFからテキストがどのように抽出されますか?
私の究極の目標は、読み込まれた情報から特定のテキストを見つけ出し、条件に一致する情報の行のみを含む文書。擬似コードの例:
- 列4に「x」がある場合は、その行を別のファイルにコピーします(「x」が含まれていない場合はスキップします) PDFの最後まで続きます。
-Read NEW doc、列1に「n」がある場合は行を保持し、そうでない場合は削除します。
私はそれが最も理想的な方法ではないことを知っており、後でその部分を修正する予定です。
自分で調査しましたか? http://www.unixuser.org/~euske/python/pdfminer/index.html –
使用しているPDFツールのソースコードがある場合は、そのソースコードを読むことから始めてください。 [Stack Overflowユーザーにどの程度の研究努力が期待されていますか?](http://meta.stackoverflow.com/q/261592/7432) –