誰かが、特定のWebページの実際の肉の内容を見つけるためのヒューリスティックなアプローチの学術論文や関連する実装の方向で私を指すことができるかどうか分かりますか。メインコンテンツを見つけるヒューリスティックアプローチ
明らかに、問題の説明があいまいであるため、これは簡単なことではありませんが、私たちは皆、ページの主な内容が何を意味しているのかについて一般的に理解していると思います。
たとえば、ニュース記事の記事テキストを含めることができますが、ナビゲーション要素、法的免責事項、関連記事、コメントなどは含まれない場合があります。記事タイトル、日付、著者名、その他のメタデータ灰色のカテゴリ。
私は、このようなアプローチのアプリケーション価値が大きく、Googleが検索アルゴリズムで何らかの方法でそれを使用していることを期待していると思うので、過去にこの主題が学者によって扱われているように見えます。