PDFMinerを使って遊んだだけで、PDFからテキストを抽出し、HTMLまたはテキストファイルにスローすることができます。それは私が望んでいる場合PDFMiner条件付きテキストの抽出
with open('output.txt', 'r') as searchfile:
for line in searchfile:
if 'HELLO' in line:
print(line)
そして今、私は私のdatabseに追加する単語のHELLOを含むすべてのこれらの文字列を使用することができます。
pdf2txt.py -o outputfile.txt -t txt inputfile.pdf
私は、すべての特定の文字列を抽出するために、簡単なスクリプトを書かれています。
私の質問は以下のとおりです。
が唯一の方法であるかPDFinderもTXT、HTML、あるいはストレートデータベースにそれを吐き出し前に条件付きのものをつかむことができますか?
投稿にテキストを抽出するために使用したコードを追加することをおすすめします。コードはテキストよりもはるかに目を引く、特にそれに慣れている場合 – YakovL
ありがとう@YakovL!完了しました。 –