テキストマイニングPDFファイルとPython？

python用のパッケージ/ライブラリがあり、PDFを開いて特定の単語を検索することはできますか？テキストマイニングPDFファイルとPython？

2009-11-04 sepiroth

PyPdf2を使用すると、extractText()メソッドを使用してpdfテキストを抽出して処理することができます。

更新：@Aditya Kumarのおかげで、PyPdf2を参照するように変更されました。

2009-11-04 07:39:34 ismail

@cartman：PyPdfが行間にスペースを入れないという事実をどのように扱うか考えていますか？例えば、pdfの1行が 'hello'と言い、次の行が 'world'と答えた場合、テキストを抽出するテキストは「hello world」ではなく「helloworld」で、テキストマイニングを殺します。 – sepiroth

If I PyPdfはいくつかのPDFの改行を '\ x00'として読み込みます。 – PhilS

+1 pyPdf：それは、少し古くなったとしても、たいていの便利なモジュールです。（ソースはとにかく利用可能ですが、それはいくつかの適応ですが）。 – RedGlyph

私はあなたが1つのステップでそれを行うことはできないと思っていますが、あなたは確かにpdfminerでpdfからテキストを得ることができます。その後、その回復されたデータにテキスト検索を適用することができます。

出典

2009-11-04 07:38:39 shylent

テキストマイニングPDFファイルとPython？

答えて

関連する問題