PDFからのデータ抽出のための自然言語処理

私は多くの異なるフィールドを持つスキャンされたpdfsの多くの異なるフォーマットを持っています。それをスキャンされた請求書と考えてください。スキャンされたpdfから情報を抽出し、各フィールドにあるフィールドとテキストを出力する必要があります。PDFからのデータ抽出のための自然言語処理

私はすべてのテキストを元の形式で抽出するのに良い仕事をするOCRツールを持っています。私は何とかNLPを使用して、元のテキストからフィールドとその値を抽出できる必要があります。請求書には多くの書式があるため、この場合はOCRを使用するオプションはありません。この問題の解決にNLPがどのように役立つのでしょうか？

出典

2017-10-05 rookie

ほとんどのNLPツールは、ステートメントからデータを抽出するように設計されています。句読点がない場合は、うまくいかない場合があります。 https://mynlu.comのようなNLUサービスを使用している場合は、一般的なフレーズの例とそこに含まれる関連データ（エンティティ）の場所も指定する必要があります。これをステートメントに分割することができれば、myNLUや他のNLUサービス（LUIS、Watsonなど）のようなものが<の10分に出ることができます。

出典

2017-10-05 17:44:17

PDFからのデータ抽出のための自然言語処理

答えて

関連する問題