2009-08-03 8 views
1

テキストの重い記事であるHTMLページがある場合は、プライマリコンテンツを特定して解析したいと考えています。ページのプライマリコンテンツの特定

例としてhttp://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.htmlを使用して、タイトルと記事を含むdiv#post-4438372351887392855を特定します。

私は完全なものでも時間の100%もできないことは知っていますが、妥当な数の状況で望みの結果を得る方法はありますか?

私の現在の考えは、各divを繰り返し、マークアップを取り除いてから、ほとんどのテキストを含む最も内側のdivを見つけることです。

この時点で、私はちょうど始めているので、入力を探して私は概念的なアプローチに向けることができます。または、何かがある場合は、オープンソースライブラリがいいでしょう。

洞察のために事前に感謝します。

答えて

1

arc90の人々の中には、readability bookmarkletでかなり印象的な仕事をしている人もいます。 「メイン」のコンテンツを見つけ出すのは非常にうまくいくと思われます。完全にリストしたページで動作します。
よくコメントされたjavascript(ブックマークレットにリンクされています)を見ても構いませんが、開発者にアイデアや使用許可を求めることができます。

関連する問題