白黒画像文書クラスタリング

白い文書（画像スキャン）を黒色にして、のレイアウトに従ってクラスタ化したいです。事をより具体的にするために、次の3つのイメージがあり、最初の2つは比較的類似したレイアウトを持つため、最初の2つは第3のイメージとは違って同じクラスタに入る可能性が高いとします。白黒画像文書クラスタリング

私の質問は、ドキュメントをクラスタリングするにはどうすればよいでしょうか。今、私は最初のアプローチのカップルがあります：

しますか？ここでも、レイアウトだけが重要です。

2017-11-23 PSNR

多くの場合、純粋な英語の用語で説明すると、主要な特徴であると認識されるものが良いスタートです。 –

レイアウト解析を行うときにOCRは役に立ちません。また、プレビューアによると、レイアウト機能をクラスタとして定義する必要があります。 – Silencer

生データをクラスタ化しないでください。

クラスタリングは監督されていないため、重要なプロパティと重要でないプロパティを知ることはできません。クラスタリングアルゴリズムには、すべてが重要です。

代わりに、レイアウト関連の機能を最初に定義します。長いエッジなど。

2017-11-24 00:55:33

答えて