私は現在、Googleのtesseract ocrワークフローに取り組んでいます。 PDFからTIF年代を生成するための2つのオプションがあります:Tiff出力の品質imagemagick対ゴーストスクリプト
はghostscript:
gswin64c.exe -r300x300 -dBATCH -dNOPAUSE -sDEVICE = tiff24nc -sOutputFile = thetif.tif -sCompression = LZW thepdf.pdf - Cは-q
ImageMagickの終了 - 変換:
変換-background白アルファオフ-density 300 thepdf.pdf -depth 8 -compressジッパーをthetif.tif
(任意の)サンプルファイルの場合、抽出されたtifはconvertの結果の約5倍のgswin64cであり、それでもconvert(!)でgswin64cを使用するとテキストははるかに滑らかで高品質です。だから私は変換を使用することを好むだろうが、残念なことに、gswin64cの時間を抽出するのに約4倍かかる。複数のpdfから30ページ(170秒対40秒)。
gswin64cの品質を改善する(出力ファイルを極端に拡大することなく)、または変換を高速化する機会はありますか?
このヒントをありがとう。 ghostscriptで出力を最適化するための設定を見つけることができたら、私はチェックアウトしようとします。 –