ページのプライマリコンテンツの特定

テキストの重い記事であるHTMLページがある場合は、プライマリコンテンツを特定して解析したいと考えています。ページのプライマリコンテンツの特定

例としてhttp://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.htmlを使用して、タイトルと記事を含むdiv＃post-4438372351887392855を特定します。

私は完全なものでも時間の100％もできないことは知っていますが、妥当な数の状況で望みの結果を得る方法はありますか？

私の現在の考えは、各divを繰り返し、マークアップを取り除いてから、ほとんどのテキストを含む最も内側のdivを見つけることです。

この時点で、私はちょうど始めているので、入力を探して私は概念的なアプローチに向けることができます。または、何かがある場合は、オープンソースライブラリがいいでしょう。

洞察のために事前に感謝します。

出典

2009-08-03 chipotle_warrior

arc90の人々の中には、readability bookmarkletでかなり印象的な仕事をしている人もいます。「メイン」のコンテンツを見つけ出すのは非常にうまくいくと思われます。完全にリストしたページで動作します。
よくコメントされたjavascript（ブックマークレットにリンクされています）を見ても構いませんが、開発者にアイデアや使用許可を求めることができます。

出典

2009-08-03 04:49:12

主要コンテンツ抽出のためのリソースの中で最も完全なコンパイルリストは以下のとおりです。

余分なヒントがあるので、コメントでも確認してください。

出典

2011-12-29 18:52:47

ページのプライマリコンテンツの特定

答えて

関連する問題