2

私は画像を解析するために文脈自由文法を使用しようとしているプロジェクトに取り組んでいます。私たちは、イメージセグメントの木を構築し、機械学習を使ってこれらの視覚的文法を使用して画像を解析しようとしています。CFGと任意の数の近傍を解析するにはどうすればよいですか?

私はSVM-CFGが理想的だと分かりました。文字列解析のために設計されていますが、文字列内の各端末には2つ以下の隣接語(前後の単語)があります。我々の視覚的文法では、各セグメントは、任意の数の他のセグメントの隣に置くことができる。

これらのビジュアル文法を解析するには、どのような方法が最適ですか?具体的には、SVM-CFGを使用するようにデータをエンコードすることはできますか?あるいは、私自身のKernel/parsing libraryを書く必要がありますか?

答えて

1

SVM-CFGは、SVM-struct(ここではhttp://www.cs.cornell.edu/People/tj/publications/tsochantaridis_etal_04a.pdf、セクション4で説明)で使用される切断面最適化アルゴリズムの特定の実装です。

各ステップで、切断面アルゴリズムは、最高スコアリング構造化出力割り当てを見つける関数を呼び出します(SVM-CFGではこれが最高のスコア解析です)。

SVM-CFGは、1次元文字列の場合、動的プログラミングアルゴリズムを実行して、多項式時間で最高のスコア解析を検索します。

SVM-structを拡張して画像の最高得点解析を返すことはできますが、これを行う多項式時間アルゴリズムはありません!

画像を解析する最先端技術の参考資料です:http://www.socher.org/uploads/Main/SocherLinNgManning_ICML2011.pdf。彼らは、画像セグメンテーションの最高得点解析を見つけるために同じ問題に遭遇するので、彼らはおおまかな解を見つけるために貪欲なアルゴリズムを使用します(セクション4.2を参照)。 SVM-structに同様のgreedyアルゴリズムを組み込むことができるかもしれません。

関連する問題