アルフレコシンプルOCR。 PDFファイルからテキストを抽出し、ワークフローを開始するために使用します。

私はpdfsandwichとtesseract OCRでalfresco-simple-ocrを使用しています。私は、フォルダに挿入されたドキュメントからテキストを取得し、新しいワークフローでテキストとpdfファイルを使用したいと思います。

私はOCR抽出を行うことができました。カタログに挿入されたファイル（）でワークフローを開始する方法はありますが、ファイルからテキストを取得してワークフローで使用することはできません。
これは可能性がありますか？
どこでその機能の実装を開始できますか？

Greetings、RafałアルフレコシンプルOCR。 PDFファイルからテキストを抽出し、ワークフローを開始するために使用します。

出典

2017-05-09 Rafalsonn

あなたはそのための拡張は必要ありません。 Alfrescoは、あなたのためにそれを行うPDfBoxをすでに統合しています。その後、イメージ（スキャンされたドキュメント）を含むPDFか、すでにテキストが入っているPDFの場合は、PDFに依存します。あなたには、いくつかの画像をOCRしたい場合は、あなたにもこのモジュールを持っている： https://github.com/bchevallereau/alfresco-tesseract

あなたが変換したいものを知っているとき、あなたは変圧器を呼び出す方法についてはjavascriptのサンプルを持って、このページを見ることができます： http://docs.alfresco.com/5.2/references/dev-extension-points-content-transformer.html 必要に応じて、Javaでも同様に実行できます。

出典

2017-05-09 13:01:01

これは機能します。ありがとう！ – Rafalsonn

アルフレコシンプルOCR。 PDFファイルからテキストを抽出し、ワークフローを開始するために使用します。

答えて

関連する問題