2017-05-09 4 views
0


私はpdfsandwichとtesseract OCRでalfresco-simple-ocrを使用しています。私は、フォルダに挿入されたドキュメントからテキストを取得し、新しいワークフローでテキストとpdfファイルを使用したいと思います。

私はOCR抽出を行うことができました。カタログに挿入されたファイル( )でワークフローを開始する方法はありますが、ファイルからテキストを取得してワークフローで使用することはできません。
これは可能性がありますか?
どこでその機能の実装を開始できますか?

Greetings、RafałアルフレコシンプルOCR。 PDFファイルからテキストを抽出し、ワークフローを開始するために使用します。

答えて

2

あなたはそのための拡張は必要ありません。 Alfrescoは、あなたのためにそれを行うPDfBoxをすでに統合しています。その後、イメージ(スキャンされたドキュメント)を含むPDFか、すでにテキストが入っているPDFの場合は、PDFに依存します。 あなたには、いくつかの画像をOCRしたい場合は、あなたにもこのモジュールを持っている: https://github.com/bchevallereau/alfresco-tesseract

あなたが変換したいものを知っているとき、あなたは変圧器を呼び出す方法についてはjavascriptのサンプルを持って、このページを見ることができます: http://docs.alfresco.com/5.2/references/dev-extension-points-content-transformer.html 必要に応じて、Javaでも同様に実行できます。

+0

これは機能します。ありがとう! – Rafalsonn

関連する問題