私はTesseractと協力して、画像からボキャブラリリストを抽出しています。OCR Tesseractの設定
リストは2つの異なる言語で構成されています。残念ながら、lang1とlang2の間に空白(空白文字は3〜4)しかありません。
2つの文字列を区別するための文字列を定義する方法はありますか。
リストは次のようになります。
家を、ハウス、Gebäude ツリーバウム を構築する...
をまた、私は各単語のペアの後に改行を取得するために問題を抱えています。
ありがとうございます!
編集: 私はあなたが見ることができるように、この絵から
をすべてのエントリを抽出するために、このコマンド
tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu
を実行し、値の間に明確な区切りはありません。出力として私はこれを得る
nej nein
jaha aha
Vad talar du för språk? Welche Sprachen sprichst du?
vad för welche, was für
tala (talar, talade, talat) sprechen
språk (-et, —, -en) Sprache
japanska japanisch
engelska englisch
Du då? Und du?
då da, dann, damals, als
bara nur
lite ein bisschen
verb (-et, —, en) Verb
position (—en, -er, -erna) Stellung, Position
OBS (= observera) NB, Achtung!
fråga (-n, -or, -orna) Frage
これは静かで良いです。しかし、使用可能なセパレータがないため、2つの文字列の各行の文字列をどのように区切るか分かりません。
これまでに試したことと使用しているプログラミング言語を教えてください。また、画像を共有することも役立ちます。 – hcham1
@ hcham1:私は質問に詳細を追加しました。 – Brotzka