2016-04-12 2 views
0

他の人はファイルログにエラーメッセージを表示することはできません。ephesoftが特定の画像からデータを分類または抽出することができる問題をepifsoftによってテストされたtif画像とともにEphesoftコミュニティ版4.0.2.0を使用しています(すべての画像ではない)

Application_Checklist_HOCR.xml:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?> 
<HocrPages<HocrPage> 
<Title></Title><Spans/> 
<HocrContent></HocrContent> 
</HocrPage></HocrPages> 

しかし、米国invoice_HOCRのため、私はHOCRとHTMLファイルを生成した学びのファイルをクリックしてください

は、データのない空になっているだけで、このようにメタデータ。 xml ephesoftは学べますが、このファイルは次のようになります:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?><HocrPages><HocrPage> 

<Title></Title><Spans><Span><Value>INVOICE</Value><Coordinates><x0>579</x0> 

<y0>247</y0><x1>881</x1><y1>304</y1></Coordinates></Span><Span> 

<Value>ACME</Value><Coordinates><x0>168</x0><y0>394</y0><x1>311</x1><y1>431</y1> 

</Coordinates></Span><Span><Value>Company</Value><Coordinates><x0>329</x0> 

<y0>395</y0><x1>541</x1><y1>442</y1></Coordinates></Span><Span> 

<Value>lnvoice</Value><Coordinates>............ 
+0

アップ............ –

+0

私はまったく同じpbを持っています。しかし、私がコマンドラインで直接tesseractを使用するとうまくいきます。これはコマンドラインです:> tesseract myfile.tif myfile hocr。しかし、Ephesoftから実行すると、役に立たないHOCR htmlファイルが生成されます。 – ElArbi

+0

tesseract設定ファイルを/Path-To-Ephesoft/Application/WEB-INF/classes/META-INF/dcma-tesseract/tesseract-reader.propertiesに変更して、この行にコメントすることができます。#tesseract.command_parameters = -psm 4 to tesseractにデフォルトセグメンテーションを使用させます。 –

答えて

1

modi/Path-To-Ephesoft/Application/WEB-INF/classes/META-INF/dcma-tesseract/tesseract-reader.propertiesにtesseract設定ファイルを置き、#tesseract.command_parameters = -psmをコメントアウトしてtesseractはデフォルトセグメンテーションを使用します。

関連する問題