2017-08-13 8 views
0

私はユニークな手紙を持つ古代言語のためにどのバージョンのTesseractを訓練するべきかアドバイスを求めています。言語は、特性に関してアラビア語に非常に似ています。また、右から左に移動し、いくつかの手紙は単語に接続することができます。言い換えれば、手紙は始め、中、終りに応じて3つの形をとることができます。また、文字の上または下に来るharakat(short vowel marks)もあります。新しい言語のトレーニングに使用するTesseractのバージョンは?

バージョン3.Xでは利用可能なツールを利用したいが、アラビア語についてはthis warningを使用したいからです。なぜなら、この言語は非常に似ているからです。

Tesseractに精通している人は、このような言語を習得することをお勧めしますか?また、より良いツールを知っているなら、親切に共有してください。

答えて

1

大量の文書をOCRする必要がある場合は、Tesseract 4.0を使用することをお勧めします。以前にそれを読んでいない場合に備えて、以下の情報を参照してください。

  1. Tesseract 4.0 Accuracy and Performance
  2. Tesseract 4.0 with LSTM
  3. Training Tesseract 4.0
  4. Language Data File for 4.0、あなたはArbic OCRのみニューラルネットLSTMあるOCRエンジンモード1(すなわち--oem 1)で細かい動作するかどうかを確認するためのテストを有することができます。

Tesseract 4.0.0 alphaは、昨年11月から12月にリリースされました。

このヘルプが必要です。

関連する問題