私は多くのドキュメントをOCRしようとしています(私は300k +の範囲で1日を意味します)。現時点では、私はTesseract wrapper for .NETを使用していますが、品質はすべて良いですが、スピードが十分ではありません。私が平均20回の同じ仕事をしているpdfからの半分のページの平行スキャンでは、スキャンあたり2,546秒です。コードを使用して:tesseractをスピードアップする方法OCR
using (var engine = new TesseractEngine(Tessdata, "eng", EngineMode.TesseractOnly))
{
Page page;
page = engine.Process(image, srcRect);
var text = page.GetText();
return Task.FromResult(text);
}
私が得る平均時間は、画像の解像度を半分に下げてからグレースケールに変換した後です。どのようなアイデアは、プロセスをスピードアップするには?テキストを分割する必要はありません。テキストは1行に収められます。 Matlab for c#?
すべてのページに対して新しいエンジンを作成しますか( 'new TesseractEngine')? – GWigWam
@GWigWamはい、現時点ではそのように動作しています。私はそれが並列使用をサポートしていないと確信しています – TestzWCh
あなたは正しいです、それは並列使用をサポートしていません。しかし、それを作成するのはコストがかかります。 – GWigWam