質問とthis質問については、PDF
の何千ものダウンロード方法を聞いて、OCR
でテキストを抽出する方法を尋ねると、私は強化のために再びレンガの壁を打っていますテキスト出力テセラクトOCR
PDF
のテキストを抽出して、テキストの姓を検索することに興味があります(必ずしもテキストの残りの部分を読む必要はありません)。 PDF
は、1810年から1832年の間に発行され、German Frakturで書かれた古い新聞記事を表しています。このフォントは、特にtesseract
の場合は難しいようです。
Q:tesseract
の画像品質をさらに向上させるには、少なくともテキスト内の姓を変更する必要がありますか?どの手順をお勧めしますか?
我々は一例としてthis PDFを取る場合
convert -colorspace GRAY -resize 3000x -units PixelsPerInch example.pdf example-page.jpg
を適用する際に、私は今、それはひどい実行することになり
tesseract --tessdata-dir /usr/local/share/tessdata/ -l deu_frak example-page.jpg example-page.txt
でtesseract
を使用している場合は、私は以下の画像を受け取ります約360個の発音区別記号が検出された画像にのみ表示されます。私のテキスト出力は完全にスクランブルされています。
私は
textcleaner -g -e stretch -f 25 -o 10 -u -s 1 -T -p 10
または
textcleaner -g -e stretch -f 25 -o 20 -t 30 -u -s 1 -T -p 20
のいずれかを適用し、フレッドのImageMagickのスクリプトtextcleanerを使用する場合、私は、その後に再びtesseract
を実行すると、私はこの
のような何かを得ます上記のmentio結果のテキストははるかに優れています(約700-800の発音区別符が検出されました)が、テキストのほとんどの姓を見つけられないほど十分にスクランブルされています。
しかし、この例のページは特に難しいことが分かりますが、インクプリントではなく、最初から歪んでいないページも、tesseract
と上記のコマンドで処理すると、スクランブルされた出力と判読不能な姓が生成されます。例えば
このページ
Q: - 少なくとも - どのように私は、さらににtesseract
の画質を向上させることができ、テキストでの姓を見つけるために変更がありますか?どの手順をお勧めしますか?
編集: GUIボックスエディタはMacOSで確実に動作するようだと、私はjTessBoxEditor、例えば参照、訓練たTesseractが必要かどうか、知っているか与えられたドイツのフラクトゥールフォントに対処することをお勧めしませんが、 Qt-box-editor、またはTesseract-Box-Editor、またtesseractの訓練方法を理解できませんでした。tesseract training wiki hereと別のチュートリアルhereを参照してください。
こんにちは、マイク、投稿していただきありがとうございます。私はあなたのスクリプトを試してみましたが、それを "翻訳"してMacで動作させることに失敗しました。どのようにそれがMac用に動作するように任意の提案? –
上記の私の編集を参照してください。 – mikep
あなたの素早い返答をありがとう。私が最後に持っている問題は、膨大な量のPDFがあるので、gsとGNU並列を使いたいということです。私はこのコマンドを試しました。 'time parallel -j 8 --verbose --progress 'mkdir -p {。} && gs -dSAFER -dBATCH -dNOPAUSE -sDEVICE = pgmraw -r300 -dTextAlphaBits = 4 -sProcessColorModel = DeviceGray -sColorConversionStrategy = Gray - dOverrideICC -o {。}/{。} .pgm '::: * .pdf'を実行すると、それぞれのPDFの後に名前が付けられたフォルダが空になります(それぞれのPDFのpgmが存在するはずです)。私が間違っていることを偶然知っていますか? –