2016-10-11 18 views
0

私はTesseractと協力して、画像からボキャブラリリストを抽出しています。OCR Tesseractの設定

リストは2つの異なる言語で構成されています。残念ながら、lang1とlang2の間に空白(空白文字は3〜4)しかありません。

2つの文字列を区別するための文字列を定義する方法はありますか。

リストは次のようになります。

家を、ハウス、Gebäude ツリーバウム を構築する...

をまた、私は各単語のペアの後に改行を取得するために問題を抱えています。

ありがとうございます!

編集: 私はあなたが見ることができるように、この絵から

Swedish - German wordlist

をすべてのエントリを抽出するために、このコマンド

tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu 

を実行し、値の間に明確な区切りはありません。出力として私はこれを得る

nej nein 

jaha aha 

Vad talar du för språk? Welche Sprachen sprichst du? 
vad för welche, was für 

tala (talar, talade, talat) sprechen 

språk (-et, —, -en) Sprache 

japanska japanisch 

engelska englisch 

Du då? Und du? 

då da, dann, damals, als 

bara nur 

lite ein bisschen 

verb (-et, —, en) Verb 

position (—en, -er, -erna) Stellung, Position 
OBS (= observera) NB, Achtung! 

fråga (-n, -or, -orna) Frage 

これは静かで良いです。しかし、使用可能なセパレータがないため、2つの文字列の各行の文字列をどのように区切るか分かりません。

+0

これまでに試したことと使用しているプログラミング言語を教えてください。また、画像を共有することも役立ちます。 – hcham1

+0

@ hcham1:私は質問に詳細を追加しました。 – Brotzka

答えて

0

Tesseract APIを使用して、のメソッドWordFontAttributesを呼び出して、1つの単語が太字であるかどうかを判断して単語を区切ります。 This GitHub gistは、このメソッドの使い方を示しています。

関連する問題