2017-10-05 6 views
0

私は多くの異なるフィールドを持つスキャンされたpdfsの多くの異なるフォーマットを持っています。それをスキャンされた請求書と考えてください。スキャンされたpdfから情報を抽出し、各フィールドにあるフィールドとテキストを出力する必要があります。PDFからのデータ抽出のための自然言語処理

私はすべてのテキストを元の形式で抽出するのに良い仕事をするOCRツールを持っています。私は何とかNLPを使用して、元のテキストからフィールドとその値を抽出できる必要があります。請求書には多くの書式があるため、この場合はOCRを使用するオプションはありません。この問題の解決にNLPがどのように役立つのでしょうか?

答えて

0

ほとんどのNLPツールは、ステートメントからデータを抽出するように設計されています。句読点がない場合は、うまくいかない場合があります。 https://mynlu.comのようなNLUサービスを使用している場合は、一般的なフレーズの例とそこに含まれる関連データ(エンティティ)の場所も指定する必要があります。これをステートメントに分割することができれば、myNLUや他のNLUサービス(LUIS、Watsonなど)のようなものが<の10分に出ることができます。

関連する問題