どのように私はJavaで画像からテキスト領域を分離するのですか

Tesseract Java APIを使用しているので、私はOCRを使ってパスポートの詳細を認識しています。より良い精度を達成するためには、イメージ全体（.png、.jpeg、.tiff）をテキスト領域にのみ分割する必要があります。画像からテキスト領域を分離するオープンソースのJavaライブラリがありますか？私にそれに関する提案をお願いします。どのように私はJavaで画像からテキスト領域を分離するのですか

出典

2016-10-25 Shilpa

あなたの最善の策はOpenCVを使うことです（Javaにはバインディングがあります）。

問題は難しく、すべての場合に機能する解決法はありません。私はthis oneのようなスレッドからの提案をチェックし、あなたの特定のケースに最適なソリューションを見つけようとします。

出典

2016-10-25 11:16:12

Marvinは、この目的のための方法を提供します。

public static java.util.List<MarvinSegment> findTextRegions(MarvinImage imageIn, 
             int maxWhiteSpace, 
             int maxFontLineWidth, 
             int minTextWidth, 
             int grayScaleThreshold)

入力画像：

出力画像：

ソースコード：

import static marvin.MarvinPluginCollection.*; 

public class TextRegions{ 

     public static void main(String[] args) { 

     MarvinImage image = MarvinImageIO.loadImage("./res/passport.png"); 
     MarvinImage originalImage = image.clone(); 
     List<MarvinSegment> segments = findTextRegions(image, 15, 8, 30, 150); 

     for(MarvinSegment s:segments){ 
      if(s.height >= 5){ 
       originalImage.drawRect(s.x1, s.y1, s.x2-s.x1, s.y2-s.y1, Color.red); 
      } 
     } 

     MarvinImageIO.saveImage(originalImage, "./res/passport_2.png"); 
    } 
}

出典

2016-11-24 16:01:23

どのように私はJavaで画像からテキスト領域を分離するのですか

答えて

関連する問題