1

私は、ユーザーがフォームを表す(スキャンした)PDFファイルをアップロードし、興味のあるフィールドの周りに境界ボックスを描き、内容はOCRされ、構造化テキスト形式で返されます。バウンディングボックスを描画するのは一種のドラッグなので、私はユーザーが必要とする作業を減らす方法を考えていました。即ち、既に自動的に検出された形態のフィールドの分割を提供する。私はこの問題の研究に着手し、主にコンピュータビジョンアルゴリズムに基づいた興味深いアプローチを見つけました。しかし、このアプリケーションは今後頻繁に使用されるため、多くの境界ボックスがユーザーによって描画されるため、このデータセットを使用して学習方法を適用することはほとんど無駄に思えます。だから私は、異なる形式の多くを見ている始め、それらのほとんどは、このような方法で、国境で構成されていることに気づい:関連するフィールドをフォームで検出する方法(画像形式)

enter image description here

ここではいくつかの所見:テキストを100%満たされているボックスは、通常、条項/免責条項/などを表すため、抽出の要求はしていません。 (主に)空のボックスも、ほとんど関係のないフィールドを示すため、要求されません。興味深い唯一のボックスは、上部/左にラベルがあり、ボックスの本体にいくつかのコンテンツが表示されているようです。

もちろん、すべてのフォームが上記のような境界線でうまく構成されているとは限りません。あるものは、フィールド間に1つの分割境界(すなわち、水平または垂直)を使用するものもあれば、境界が全くないものもある。

私たちは画像を扱っているので、私は100個のフォームのデータセットで夜間に訓練させるYOLOv2(畳み込みニューラルネットワーク)を試しました(このデータセットはまだ小さすぎて、私はCPUを訓練しましたが、私はそれを十分長く訓練していませんでした)。とにかく、私はすべての訓練フィールドが境界といくつかの内容を持っていたという事実が、ボーダーボックス自体を見つけるシステムを迅速に助けることを望んでいました。しかし、これまでのところ、結果はかなり失望していた(平均損失/誤差= 9.6)。私はこれについて考え始めた後、ユーザーが完全に細かいボーダーボックスである特定のフィールドを描画するのをスキップすると、学習プロセスでニューラルネットワークが混乱することに気付きました。

私の質問の残りの部分については、あなたはオブジェクト認識がここに行く方法だと思うのですか、そういう形の性質を与えられたシステムにとってあまりにも混乱していますか?もしそうなら、私はいくつかのフィルタを適用して、テキストを一緒に "ぼかす"ようにして、ボックスをお互いのように見せかけることはできますか?そうでなければ、ドキュメントごとに(ほとんどの)関連するボックスの座標のこのデータセットを考えれば、代わりに適用するより良い学習方法は何でしょうか?おそらく国境の存在にあまり基づいていない方法かもしれませんか?

私が求めている唯一の要件は、システムを継続的に改善するために、ユーザーが描いたバウンディングボックスをデータセットとして使用できることです。

ありがとうございました!

答えて

1

ニューラルネットワーク戦略については、最初にテキストを認識する方が面白いかもしれません。このようにして、あなたの100の文書が与えられてからもっと多くのデータを学ぶことができます。その後、特定のヘッダーを認識することができます。次に、テキストのバウンディングボックスがある場合、どのヘッダが前記ヘッダに近いかを判断することは容易であろう。あなたが望む出力があなたのイメージに表示されている大きさのバウンディングボックスである場合、ネットワークは、直接テキストを含む制限された小さなボックスではなく、有用な情報を見つけるのにずっと時間がかかります。もちろん、あなたのボックスは手動で入力されるので、その曖昧さは、それらを予測する際の正確さの喪失の主要な原因になります。したがって、ピクセルの正確な入力があればこれも役に立ちます。

代替学習方法としてversion spacesも使用することを検討してください。機能を含むラーニングボックスは、その主な使用事例の1つです。

もう1つの戦略は、機械学習をまったく使用しないことです。 MatlabやOctaveなどの数学フレームワークでは、検出された線のバイナリの単一ピクセル幅のグリッド(example)に画像を縮小できるpowerful algorithmsがあります。これはもちろん、ラインを使わずに作業する場合(黒いピクセルが最小の垂直/水平のカットを見つける)または部分的なラインで作業する場合に、余分なアルゴリズム作業が必要になります。それでも、結果は学習者よりも正確かもしれません。

+0

特定のヘッダーを学習し、それらをテキストに関連付けることについての素晴らしい洞察力!このようにして、私は自動的に検出されたボックスだけでなく、それが属するラベル/ヘッダーの予測も行います。私はこれらの別々の問題に焦点を当て、このポストを更新しておきます。ありがとう! – SND

+0

@SeekAndDestroy答えとしてマークpl0x ^^ –

+1

複数のアプローチを調べた後、私は、オブジェクトの認識が行く方法ではないと言うことができます。代わりに、私は自分のアプローチを、コンピュータ視覚アルゴリズムを使用して事前に線を試して検出し、同様にテキストのブロックを検出するという、最後に言及した戦略に部分的に基づいています。 2つをリンクすると、境界線のあるボックスと「ラベル」 - 「テキストブロック」のペアが作成されます。私はまだトレーニングデータとしてユーザ描画されたボックスを組み込むさまざまな方法を研究しているため、問題は完全に解決されていませんが、あなたの投稿が正しい方向に私を送ったので、私は答えとしてマークします。 – SND