2017-10-30 18 views
0

私は現在、Googleのtesseract ocrワークフローに取り組んでいます。 PDFからTIF年代を生成するための2つのオプションがあります:Tiff出力の品質imagemagick対ゴーストスクリプト

  1. はghostscript:

    gswin64c.exe -r300x300 -dBATCH -dNOPAUSE -sDEVICE = tiff24nc -sOutputFile = thetif.tif -sCompression = LZW thepdf.pdf - Cは-q

  2. ImageMagickの終了 - 変換:

    変換-background白アルファオフ-density 300 thepdf.pdf -depth 8 -compressジッパーをthetif.tif

(任意の)サンプルファイルの場合、抽出されたtifはconvertの結果の約5倍のgswin64cであり、それでもconvert(!)でgswin64cを使用するとテキストははるかに滑らかで高品質です。だから私は変換を使用することを好むだろうが、残念なことに、gswin64cの時間を抽出するのに約4倍かかる。複数のpdfから30ページ(170秒対40秒)。

gswin64cの品質を改善する(出力ファイルを極端に拡大することなく)、または変換を高速化する機会はありますか?

答えて

1

私にとって、これは品質対スピードのオフ通常の取引のように見えます。あなたはコンバートの品質が好きですが、その速度は遅すぎます.Ghostscriptの速度は好きですが、品質が低いと感じています。

確かに、あなたは両方を持つことができないと示唆していますか?

とにかくImageMagick変換でGhostscriptがPDFファイルをレンダリングすることを認識していますか?どのルートを使用していても、Ghostscriptを使用しています。

変換は画像をポスト=処理していることは完全に可能ですが、そうではないと思われます。変換の仕組みを調べると、おそらくGhostscriptにどのコマンドラインが供給されているのかを知ることができます。

また、convertが別の圧縮フィルタ(LZWの代わりにFlate)を使用していて、アンチエイリアスを指定しているようです。アンチエイリアスを得るには、TextAlphaBitsとGraphcisAlphaBitsまたはtiffscaledデバイスを使用します。

もちろん、アンチエイリアスを使用するとテキストが滑らかになります(ぼかしたテキストが好きな場合)が、時間がかかります。

+0

このヒントをありがとう。 ghostscriptで出力を最適化するための設定を見つけることができたら、私はチェックアウトしようとします。 –

0

私はgoogle tesseract ocrワークフローを使用していませんが、あなたのコマンドは奇妙に見えます。なぜ2人が変換するのですか?

通常、入力イメージは変換後に表示されますが、あなたの場合は-densityが最初に表示されます。

私はこのような何かを試してみて、何が起こるかを見るであろう:

imagemagick - convert -density 300 thepdf.pdf -background white -alpha off -depth 8 -compress zip thetif.tif 
+0

申し訳ありませんが、これはstackoverflowエディタでの編集が不十分でした。私はコロンを追加するか、新しい行を生成しなければなりませんでした(今修正されました)。このコマンドはconvertで始まりますが、それにもかかわらず非常に時間がかかります。 –

関連する問題