-3
Webページのコアテキストを取得するためのモジュールがありますか? 何かがヘッダー/メニュー/ソーシャルリンクを削除しますか?WebページのコアテキストをPythonでスクラップする
ありがとうございました
Webページのコアテキストを取得するためのモジュールがありますか? 何かがヘッダー/メニュー/ソーシャルリンクを削除しますか?WebページのコアテキストをPythonでスクラップする
ありがとうございました
サイトごとに異なると思います。すべてのウェブサイトが異なる構造を持っているので、標準的な抽出プログラムを思いつくことはできません。 ウェブページの特定の部分を抽出するには、次のようにアプローチできます:
from urllib2 import urlopen
from scrapy.http import HtmlResponse
url = "some_website_you_want_to_crawl"
url_response = urlopen(url)
resp = HtmlResponse(url=url, body=url_response.read())
core_text = resp.xpath('xpath_to_core_text').extract()[0]
「リクエスト」を試してください。まず、グーグルで試してみてください。 –