異なるレイアウトのウェブサイトから記事コンテンツを抽出する方法

私は、さまざまな代理店によって発行された1,000件の記事のURLリストを持っています。もちろん、それぞれに独自のHTMLレイアウトがあります。私は各URLから記事の本文のみを抽出するPythonコードを書いています。これはによってのみ行われます。<> </p>段落タグをご覧ください。コンテンツが不足していますか？このアプローチでは無関係なコンテンツを含めることができますか？あなたの質問に答えるために異なるレイアウトのウェブサイトから記事コンテンツを抽出する方法

おかげ

出典

2017-08-17 Ramy Baly

一部の記事では、コンテンツが不足している場合があります。他の場合は、無関係のコンテンツが含まれます。それぞれのサイトのレイアウトが大きく変わる可能性があるため、実際にはURLから記事本文を取得する方法はありません。

bodyタグ内の複数の連続したpタグに含まれるテキストを取得することができますが、記事の本文だけを取得する保証はありません。

URLのリストを各サイトごとにリストに分割すると、記事の本文が大文字と小文字を区別できるようにすることができます。

出典

2017-08-17 18:04:34 bphi

は、それはあなたが<p></p>タグをターゲットONLY記事の内容を取得することができ非常に低いです。フィルタリングするために多大な努力を払う必要のある不要なコンテンツがたくさんあります。

これらのウェブサイトのRSSフィードを検索してみてください。これにより、HTMLページ全体を解析するよりも簡単にターゲットデータをスクラップできます。

出典

2017-08-17 18:03:56

異なるレイアウトのウェブサイトから記事コンテンツを抽出する方法

答えて

関連する問題