昨日Scrapy
を試してみましたが、私は中国のRubyフォーラムの投稿のタイトルを取得しようとしていました。しかし、何とかScrapy
の出力は不適切なレスポンスの符号化
"[\u5317\u4eac][2017\u5e746\u670818\u65e5] Rails Girls"
のように、すべてのUnicode
ある私は、レスポンスのエンコーディングがUTF-8
でチェックアウトしていると私は正確に中国の文字を表示し、本体の内容をプリントアウト。
私はScrapyセレクターを使ってタイトルを選んで出力をJsonファイルに入れてしまうのはなぜか分かりません。次に、ファイルの内容はすべて\u5317
のようなすべての文字ポインタです。どんな助けもありがとう。ありがとう。
マイコード:
import scrapy
class MySpider(scrapy.Spider):
name = 'myspider'
start_urls = ['https://ruby-china.org/topics']
def parse(self, response):
self.logger.warning("body: %s", response.body)
for topic in response.css('div.topic'):
title = topic.css('div.media-heading')
yield {'title': title.css('a ::attr(title)').extract_first()}
ありがとうございました。 –