1

私の質問は何ですか?階層的パターンやツリーパターンを検出するには最高の技術は何でしょうか?私は私で実装文法認識(Iとしようとしている階層的なデータのパターンや構造の認識

ユーザログインメニュー、またはナビゲーションメニュー、またはコンテンツ本体、フッターなど:

は、私には、例えば、HTMLページ内の部品を認識したいですLexのような古典的なものではない、この仕事のためのyaccは、HTMLデータの意味に気にしないので)phpで、DOMパーザをHTMLウォーキング(DOMDocument)に使う。

htmlでデータを視覚的に表現する方法のばらつきが原因で問題が発生しています。たとえば、メニューは<ul><li><a href=#>Link1</a><li>Link2....</ul>で実装できますが、数百の可能性は1つのみです。それはcssイベント(onclick、onmousehover)にも依存します。また、偽のメニューから実際のメニューを認識する際に問題があります。

私は神経のトレーニングではなく、私は、彼らがリニアデータではなく、階層データのためのものである検出されたすべての例で考えていました。いくつかのネットワークをトレーニングしようとしましたが、DOMツリー要素間の関係情報が失われていることは明らかです。あるいは、私はそれをより良くすることを知らないかもしれません。

私のパターン認識文法は、それがHTMLで可能な「事故」を受け付けていないため、貧しい結果を持っていたり認識を滑らかにし、それが(ファジーない)あまりにも厳しいです。

¿任意のアイデアですか?

答えて

1

1つの可能な方法は、多くの(10-20)の異なる正規表現または他の検出法のアレイを有し、それはの資格何それらの参照、それぞれが正しい頻度に応じて、それらを重み付けし、それを比較することであろう値に。またはあなたがそれらを好むならば、あなたは全体の正しいことを取ることができ、選択するニューラルネットワークを使用することができます。

関連する問題