5

白い文書(画像スキャン)を黒色にして、のレイアウトに従ってクラスタ化したいです。事をより具体的にするために、次の3つのイメージがあり、最初の2つは比較的類似したレイアウトを持つため、最初の2つは第3のイメージとは違って同じクラスタに入る可能性が高いとします。白黒画像文書クラスタリング

私の質問は、ドキュメントをクラスタリングするにはどうすればよいでしょうか。今、私は最初のアプローチのカップルがあります:

  • ゲットイメージハッシュをして使用して低次元の表現に
  • 抽出文字列を比較するために、PCAといくつかのクラスタリング手法(K-手段)を使用して
  • ハッシュを比較しますOCR、より良い他のアプローチが存在することになるテキスト特徴を抽出し、OCRを使用して、彼らに
  • 抽出文字列を比較して、いくつかのキーワード検索

しますか?ここでも、レイアウトだけが重要です。

1st image

2nd image

3rd image

+1

多くの場合、純粋な英語の用語で説明すると、主要な特徴であると認識されるものが良いスタートです。 –

+1

レイアウト解析を行うときにOCRは役に立ちません。また、プレビューアによると、レイアウト機能をクラスタとして定義する必要があります。 – Silencer

答えて

1

生データをクラスタ化しないでください。

クラスタリングは監督されていないため、重要なプロパティと重要でないプロパティを知ることはできません。クラスタリングアルゴリズムには、すべてが重要です。

代わりに、レイアウト関連の機能を最初に定義します。長いエッジなど。

関連する問題