PDF

2011-08-02 6 views
5

から可能な重複したインデックスを作成:PDFのうち、インデックスを作成します
How do I Index PDF files and search for keywords?PDF

を。

+1

で作業を?。 Pythonを使用している場合は、 'collections'モジュールを調べてください。 – TyrantWave

+0

ああ見てください。多くの多くの人々が同じ質問をしています:http://stackoverflow.com/search?q=python+index+pdf。あなたも、ページの上部にある「検索」ボックスを使用して他の人があなたに助けてくれるものを見てください。 –

+0

「私が探しているものには近くない」役に立たない。要件が実際にどのように異なるかを慎重かつ完全に定義してください。私たちはあなたが何をしているのかについて独特か違っているのか分かりません。それは私たちと同じように見えます。 –

答えて

1

私はこのpyPdf Pythonライブラリ(http://pybrary.net/pyPdf/)を使うことができると思います。必要な単語含むページの このコードショー番号:

from pyPdf import PdfFileReader 

input = PdfFileReader(file("YourPDFFile.pdf", "rb")) 

numberOfPages = input.getNumPages() 

i = 1 
while i < numberOfPages: 
    oPage = input.getPage(i) 
    text = oPage.extractText() 
    text.encode('utf8', 'ignore') 
    if text.find('What are you looking for') != -1: 
     print i 
    i += 1 

同じですが、あなたがこれまで持っている何のPython 3

from pyPdf import PdfFileReader 

input = PdfFileReader(open("YourPDFFile.pdf", "rb")) 

numberOfPages = input.getNumPages() 

i = 1 
while i < numberOfPages: 
    oPage = input.getPage(i) 
    text = oPage.extractText() 
    text.encode('utf8', 'ignore') 
    if text.find('What are you looking for') != -1: 
     print(i) 
    i += 1 
+0

主な問題は、このスクリプトでPython 2.7を使用していて、 Pythonのバージョン[http://diveintopython3.org/porting-code-to-python-3-with-2to3.html](http://diveintopython3.org/porting-code-to-python-3-with-2to3。 html) –

+0

ちょうどメモとして、forループ( '1、numberOfPages)'のために ''単語 ''をテキスト内で ''テストするだけです。 –

+0

I PyPdfを使っていないのにドキュメンテーションを見ていると、あなたのように見えません。私はPDF標準についてはあまりよく分かりませんが、文書そのものはページの観点から定義されている可能性があります。 –