2011-10-06 18 views
1

100ページのPDFのどこかに指定された〜1200のクエリ(部品番号)のリストがあります。私がしなければならないことは、それぞれのクエリのどのページがPDFに表示されるかを記録することです。私はこれを行う巧妙な方法を考えることができません。検索でこの検索を行うには5〜20時間かかります。誰かが5時間前に私に良いアイデアを与えることができれば、それは素晴らしいことです!PDFの検索からページ番号を記録する効率的な方法

あなたは別のファイル(ページごとに1つのファイル)にあなたのPDFを分割することができます:あなたは、「クエリ」は(例えば、正規表現を使用して)、プレーンテキストからプログラム的に自分のコンテキストにあるかを判断することができ想定

答えて

2

pdftk

http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/

を使用して次に、このようなPDFファイルからテキストへユーティリティを使用してテキストにこれらのファイルが変換:

http://www.fileguru.com/PDF-To-TXT-Converter/download

またはこの1

http://www.pdf2text.com/

そして最後に(それはのように見えるものは何でも)「クエリ」が含まれ、それらのファイルのかを決定するためにあなたの好きなプログラミング言語を使って自分で簡単なスクリプトを記述します。

+0

つまり、実際には、良いアイデア –