テキストの重い記事であるHTMLページがある場合は、プライマリコンテンツを特定して解析したいと考えています。ページのプライマリコンテンツの特定
例としてhttp://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.htmlを使用して、タイトルと記事を含むdiv#post-4438372351887392855を特定します。
私は完全なものでも時間の100%もできないことは知っていますが、妥当な数の状況で望みの結果を得る方法はありますか?
私の現在の考えは、各divを繰り返し、マークアップを取り除いてから、ほとんどのテキストを含む最も内側のdivを見つけることです。
この時点で、私はちょうど始めているので、入力を探して私は概念的なアプローチに向けることができます。または、何かがある場合は、オープンソースライブラリがいいでしょう。
洞察のために事前に感謝します。