これは実際にプログラミング上の問題ではなく、アルゴリズム上の問題です。HTMLセクション文書の内容を見つける
問題:HTMLページの「コンテンツ」セクションを見つける。
「コンテンツ」とは、人間が見たように、ノイズなしでページコンテンツを含むDOMを意味し、単に「実際のページコンテンツ」です。 問題はよく定義されていませんが、続行しましょう... たとえば、ブログサイトでは、通常は簡単です。特定の投稿を閲覧するときに、通常はページの上部にツールバーがあります要素をLHSに配置し、コンテンツを含むdivを作成します。 HTMLからこれを理解しようとするのは難しいことがあります。しかし、幸いなことに、ほとんどのブログにはRSSフィードがあり、この特定の投稿のフィードには、<の説明>セクション(または<のコンテンツ:encoded >)があります。 コンテンツの定義を洗練するために、これは興味深い部分を含むページ上の実際のもので、すべての広告、ナビゲーション要素などを取り除きます。 ブログからコンテンツを探すのは比較的簡単です。他のRSSサポートサイトでも同様です。
ニュースサイトはどうですか?多くの場合、ニュースサイトはRSSを持っていますが、必ずしもそうではありません。その後、ニュースサイトのコンテンツをどのように見つけますか? より一般的なサイトはどうですか?多くのWebページ(もちろんそのすべてではない)には、コンテンツセクションやその他のセクションがあります。 「興味深い」v/sのセクションを見つけ出すための良いアルゴリズムを考えてみませんか?おそらく変化しないセクションから変化するセクションでしょうか?
希望私は自分自身を明確にしました...ありがとう!
ウェブ上のページの大半は、「面白い部分」を見つけるのにうまくいきます。 –
これは難しい質問です。雑音から「興味深いコンテンツ」を識別することが容易だった場合、Adblockが広告をブロックするのと同じように、誰もが「ノイズ」フィルタを使用していました。通常、ユーザーが見ているもの(基本的にマークアップやスクリプトロジックを取り除いたhtmlファイルのコンテンツ全体)には "情報"が含まれている可能性があり、これはhtmlToTextコンバータを使用して抽出できます。これを行うには、www.htmlparser.orgのStringBeanクラスを使用できます(java)。 – hashable