0
他の人はファイルログにエラーメッセージを表示することはできません。ephesoftが特定の画像からデータを分類または抽出することができる問題をepifsoftによってテストされたtif画像とともにEphesoftコミュニティ版4.0.2.0を使用しています(すべての画像ではない)
Application_Checklist_HOCR.xml:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<HocrPages<HocrPage>
<Title></Title><Spans/>
<HocrContent></HocrContent>
</HocrPage></HocrPages>
しかし、米国invoice_HOCRのため、私はHOCRとHTMLファイルを生成した学びのファイルをクリックしてください
は、データのない空になっているだけで、このようにメタデータ。 xml ephesoftは学べますが、このファイルは次のようになります:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?><HocrPages><HocrPage>
<Title></Title><Spans><Span><Value>INVOICE</Value><Coordinates><x0>579</x0>
<y0>247</y0><x1>881</x1><y1>304</y1></Coordinates></Span><Span>
<Value>ACME</Value><Coordinates><x0>168</x0><y0>394</y0><x1>311</x1><y1>431</y1>
</Coordinates></Span><Span><Value>Company</Value><Coordinates><x0>329</x0>
<y0>395</y0><x1>541</x1><y1>442</y1></Coordinates></Span><Span>
<Value>lnvoice</Value><Coordinates>............
アップ............ –
私はまったく同じpbを持っています。しかし、私がコマンドラインで直接tesseractを使用するとうまくいきます。これはコマンドラインです:> tesseract myfile.tif myfile hocr。しかし、Ephesoftから実行すると、役に立たないHOCR htmlファイルが生成されます。 – ElArbi
tesseract設定ファイルを/Path-To-Ephesoft/Application/WEB-INF/classes/META-INF/dcma-tesseract/tesseract-reader.propertiesに変更して、この行にコメントすることができます。#tesseract.command_parameters = -psm 4 to tesseractにデフォルトセグメンテーションを使用させます。 –