2017-11-26 14 views
1

enter image description herepdfminer pdf2textは 'FF'を出力します

私はpdfを持っています。私の勝利でpdfminer.six 10、のpython 3.6環境をインストールした後、私は走った:

$ pdf2txt.py -o test1 download.pdf 

を私のスクリーンショット出力を与えます。私は実行すると:

$ dumppdf.py -o test2 download.pdf 

私が取得:

<trailer> 
<dict size="4"> 
<key>Info</key> 
<value><ref id="47" /></value> 
<key>ID</key> 
<value><list size="2"> 
<string size="16">+&#13;N&#158;&#213;&#233;&#197;&#176;&#8;&#207;&#15;&#60;&#133;M&#140;&#4;</string> 
<string size="16">&#34;&#179;&#255;&#28;&#221;&#234;&#177;&#39;&#166;&#133;&#15;&#214;&#237;&#25;&#196;&#205;</string> 
</list></value> 
<key>Root</key> 
<value><ref id="46" /></value> 
<key>Size</key> 
<value><number>48</number></value> 
</dict> 
</trailer> 

<trailer> 
<dict size="4"> 
<key>Info</key> 
<value><ref id="47" /></value> 
<key>ID</key> 
<value><list size="2"> 
<string size="16">+&#13;N&#158;&#213;&#233;&#197;&#176;&#8;&#207;&#15;&#60;&#133;M&#140;&#4;</string> 
<string size="16">&#34;&#179;&#255;&#28;&#221;&#234;&#177;&#39;&#166;&#133;&#15;&#214;&#237;&#25;&#196;&#205;</string> 
</list></value> 
<key>Root</key> 
<value><ref id="46" /></value> 
<key>Size</key> 
<value><number>48</number></value> 
</dict> 
</trailer> 

私は次に何をしますか?これをどうやって動かすことができますか?

+0

すべてのアプリにログインする必要はなく、アクセスできるようにPDFリンクを更新してください。 –

+0

これは機能しますか? – user61629

+0

"この文書はScribdから削除されました。" ---通常、GoogleドライブまたはDropboxの公開共有は正常に機能します。 – mkl

答えて

2

pdfminerが問題の文書から使用可能なテキストを抽出できないのは、文書にテキストが含まれていないことです。

より正確には、ワークシートのPDFがテキスト描画命令、指示を(結果がテキストのように見える)描画単にグラフィックスが含まれていないこと。一方、PDFテキスト抽出プログラム(pdfminerのような)は、テキスト描画命令のみを検査しているので、何も返しません。

このような文書のデータをマイニングするには、テキスト抽出の代わりにOCRを使用する方がよいでしょう。コメントで


あなたが唯一のグラフィック命令が含まれていることを知っていますか

を尋ねましたか?どのツールを使用しますか?

PDFのブラウザアプリケーションとPDFの内部知識が必要です。

私は通常、iText RUPSまたはPDFBox PDF Debuggerを使用しています。しかし、他にも良いブラウザがあります。 Adobe Preflightに含まれているものが1つあります。

このようなPDFブラウザを使用すると、ページを描画する手順が含まれているPDFのコンテンツストリームを検査できます。あなたの場合、これらのコンテンツストリームにはテキスト描画命令は含まれておらず、単にグラフィックス描画命令は含まれていません。

PDFの内部知識は、PDF仕様ISO 32000-2(新しい仕様が手元にない場合は旧来の前駆体仕様ISO 32000-1も良い出発点です)それによって実際のPDFが表示されます。

+0

私はこの文書がスキャンされている可能性があることを学んだ。このpdfから元のスキャン画像/ jpgを抽出することは可能ですか? – user61629

+0

ほとんどの場合、そうするためにpython pdfライブラリがあります。残念ながら、私はpythonでpdfファイルを処理しないので、わかりません。しかし、私が正しく覚えていれば、あなたのpdfのページは単一の大きな画像リソースとして保存されず、代わりに小さなもののモザイクとして保存されます。これは、一部のスキャナがイメージの分析を行い、よりコンパクトなストレージを可能にするためにイメージを分割しようとするため、スキャナの出力間でまったく珍しいことではありません。 – mkl