3
私は、Tesseractを使用して数百万のPDFでOCRを行っています。できるだけ多くのパフォーマンスを絞り込もうとしています。Tesseractにメモリから画像を提供する方法
私の現在のパイプラインでは、convert
を使用してPDFをPNGファイル(1ページに1つ)に変換し、それぞれにTesseractを使用しています。
プロファイリング時に、ファイルをディスクに書き込んだ後に再度読み込むのに多くの時間が費やされていることを発見しましたので、これをすべてメモリに移動したいと思います。
メモリ内で動作するPDFからPNGへの変換があるので、ファイルへのパスを与える代わりにメモリ内のBLOBをTesseractに渡す方法が必要ですか?私はこれのドキュメントや例を見つけることができませんでしたか?
この質問への完全な答えを得られない場合は、回避策は、RAMディスクにイメージファイルを保存することです。 (多くのLinuxディストリビューションではデフォルトでRAMディスクが作成されています。) – John1024
それは私の本能でもありませんが、私たちはそれを持っていません。 – mlissner
'tesseract'は' stdin'を処理することができます... –