私は多くの異なるフィールドを持つスキャンされたpdfsの多くの異なるフォーマットを持っています。それをスキャンされた請求書と考えてください。スキャンされたpdfから情報を抽出し、各フィールドにあるフィールドとテキストを出力する必要があります。PDFからのデータ抽出のための自然言語処理
私はすべてのテキストを元の形式で抽出するのに良い仕事をするOCRツールを持っています。私は何とかNLPを使用して、元のテキストからフィールドとその値を抽出できる必要があります。請求書には多くの書式があるため、この場合はOCRを使用するオプションはありません。この問題の解決にNLPがどのように役立つのでしょうか?