2009-11-04 6 views

答えて

11

PyPdf2を使用すると、extractText()メソッドを使用してpdfテキストを抽出して処理することができます。

更新:@Aditya Kumarのおかげで、PyPdf2を参照するように変更されました。

+0

@cartman:PyPdfが行間にスペースを入れないという事実をどのように扱うか考えていますか?例えば、pdfの1行が 'hello'と言い、次の行が 'world'と答えた場合、テキストを抽出するテキストは「hello world」ではなく「helloworld」で、テキストマイニングを殺します。 – sepiroth

+0

If I PyPdfはいくつかのPDFの改行を '\ x00'として読み込みます。 – PhilS

+0

+1 pyPdf:それは、少し古くなったとしても、たいていの便利なモジュールです。(ソースはとにかく利用可能ですが、それはいくつかの適応ですが)。 – RedGlyph

4

私はあなたが1つのステップでそれを行うことはできないと思っていますが、あなたは確かにpdfminerでpdfからテキストを得ることができます。その後、その回復されたデータにテキスト検索を適用することができます。

関連する問題