私はpdfsandwichとtesseract OCRでalfresco-simple-ocrを使用しています。私は、フォルダに挿入されたドキュメントからテキストを取得し、新しいワークフローでテキストとpdfファイルを使用したいと思います。
私はOCR抽出を行うことができました。カタログに挿入されたファイル( )でワークフローを開始する方法はありますが、ファイルからテキストを取得してワークフローで使用することはできません。
これは可能性がありますか?
どこでその機能の実装を開始できますか?
Greetings、RafałアルフレコシンプルOCR。 PDFファイルからテキストを抽出し、ワークフローを開始するために使用します。
0
A
答えて
2
あなたはそのための拡張は必要ありません。 Alfrescoは、あなたのためにそれを行うPDfBoxをすでに統合しています。その後、イメージ(スキャンされたドキュメント)を含むPDFか、すでにテキストが入っているPDFの場合は、PDFに依存します。 あなたには、いくつかの画像をOCRしたい場合は、あなたにもこのモジュールを持っている: https://github.com/bchevallereau/alfresco-tesseract
あなたが変換したいものを知っているとき、あなたは変圧器を呼び出す方法についてはjavascriptのサンプルを持って、このページを見ることができます: http://docs.alfresco.com/5.2/references/dev-extension-points-content-transformer.html 必要に応じて、Javaでも同様に実行できます。
関連する問題
- 1. Java - OCRを使用したPDFからのテキストの抽出
- 2. PDF OCRを使用したテキスト抽出アプローチ
- 3. OCRを使用してPDFから寸法を抽出する
- 4. PDFファイルからテキストを抽出する
- 5. モバイルカメラで画像からテキストを抽出するためにocrが使用されましたか?
- 6. iTextを使用したPDFテキスト抽出
- 7. 不正な構造OCRを使用してPDFからデータを抽出する
- 8. PHPを使用してPDFからテキストを抽出する
- 9. 複数の言語を使用したPython ocr pdfの抽出
- 10. JBoss Richfacesを使用したPDFからのテキストの抽出
- 11. イメージからテキストを抽出します。 OCR
- 12. PHPを使用してPDFファイルからページを抽出する
- 13. イメージ(OCR)からテキストを抽出するために使用するライブラリは何ですか?
- 14. itextsharpを使用して、Pdfファイルからテキストとテキストの四角形の座標を抽出します。
- 15. プロットからテキストを抽出するのに最適なOCR?
- 16. PDFファイルから表データを抽出するためのソリューション
- 17. cを使用してpdfからテキストを抽出する方法#
- 18. .NET標準を使用してPDFからテキストを抽出する
- 19. Perlを使用してPDFから画像/テキストを抽出する
- 20. pdfrwを使用してPDFのテキストを抽出する方法
- 21. Pythonを使用して、ラテックスからエクスポートされたPDFのセクションからテキストを抽出します。
- 22. PDFファイルからテーブル構造化テキストを抽出する
- 23. jqueryを使用してhtmlからテキストを抽出します
- 24. ワークフローのAlfrescoコミュニティ版は、javascriptを使用してワークフローを開始します
- 25. PDFminerを使用して、PDFから.textファイルにテキストを抽出します。コードを見つけましたが、使用方法はわかりません
- 26. GdPictureを使用してPDFからフォントを抽出する
- 27. PHPを使用してPDFからコンテンツを抽出する
- 28. Windowsワークフロー:ワークフロー内から別のワークフローを開始する
- 29. AndroidでiTextを使用してPDFファイルから画像とテキストを順番に抽出する方法
- 30. iTextを使用してpdfファイルからデータを抽出する方法
これは機能します。ありがとう! – Rafalsonn