メインコンテンツを見つけるヒューリスティックアプローチ

誰かが、特定のWebページの実際の肉の内容を見つけるためのヒューリスティックなアプローチの学術論文や関連する実装の方向で私を指すことができるかどうか分かりますか。メインコンテンツを見つけるヒューリスティックアプローチ

明らかに、問題の説明があいまいであるため、これは簡単なことではありませんが、私たちは皆、ページの主な内容が何を意味しているのかについて一般的に理解していると思います。

たとえば、ニュース記事の記事テキストを含めることができますが、ナビゲーション要素、法的免責事項、関連記事、コメントなどは含まれない場合があります。記事タイトル、日付、著者名、その他のメタデータ灰色のカテゴリ。

私は、このようなアプローチのアプリケーション価値が大きく、Googleが検索アルゴリズムで何らかの方法でそれを使用していることを期待していると思うので、過去にこの主題が学者によって扱われているように見えます。

2011-02-17 Kevin Dolan

これを見る1つの方法は情報抽出の問題です。

このように、高度なアルゴリズムの1つは、同じページタイプの複数の例を収集し、異なるページの部分の解析（または抽出）ルールを推測することです（これは主なトピックになりそうです）。直感的には、一般的なボイラープレート（ヘッダー、フッターなど）と広告は、最終的にそれらのWebページの複数の例に表示されるため、それらのいくつかを訓練することで、この定型/追加コードを確実に識別し、それ。それは誰にでもありませんが、これはまた、ロードランナーのような商用および学術の両方のWebスクレイピング技術の基礎である：

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.8672&rep=rep1&type=pdf

引用は次のとおりです。

バルターCrescenzi、Giansalvatoreメッカ、パオロMerialdo：RoadRunner：大型の Webサイトからの自動データ抽出。 VLDB 2001：

アルベルトHF Laender、ベルティエA. リベイロ・ネト、Altigran S.・ダ・シルバ、ジュリアナS：109-118

抽出技術のよく引用された調査でもあります独自の実装のために。テイシェイラ、ウェブデータ抽出ツールの簡単な調査、ACM SIGMOD 録音、v.31のN.2、2002年6月 [DOI> 10.1145/565117.565137]

出典

2011-02-17 06:01:58 kvista

"the Readability bookmarklet"を見てください。それは騒音を排除し、肉だけを残す良い仕事をしています。アルゴリズムの説明はthis stack overflow pageです。

出典

2011-03-06 16:59:23 Edward

メインコンテンツを見つけるヒューリスティックアプローチ

答えて

関連する問題