WebページのコアテキストをPythonでスクラップする

-3

Webページのコアテキストを取得するためのモジュールがありますか？何かがヘッダー/メニュー/ソーシャルリンクを削除しますか？WebページのコアテキストをPythonでスクラップする

ありがとうございました

2017-11-07 kambi

「リクエスト」を試してください。まず、グーグルで試してみてください。 –

サイトごとに異なると思います。すべてのウェブサイトが異なる構造を持っているので、標準的な抽出プログラムを思いつくことはできません。ウェブページの特定の部分を抽出するには、次のようにアプローチできます：

from urllib2 import urlopen 
from scrapy.http import HtmlResponse 

url = "some_website_you_want_to_crawl" 
url_response = urlopen(url) 
resp = HtmlResponse(url=url, body=url_response.read()) 
core_text = resp.xpath('xpath_to_core_text').extract()[0]

出典

2017-11-07 11:31:58 Kunwar

WebページのコアテキストをPythonでスクラップする

答えて

関連する問題