0
タグの前のテキストは取得できますが、後ろのテキストは取得できません。Scrapy - コメントのスクラップは、後にテキストをスキップします<br>
これは私からのコメントをこすりしようとしているウェブサイトです:いくつかのコメントから始まっ http://hamusoku.com/archives/9589071.html#comments
は、私は、ユーザーが入力したヒットという意味だと思う
タグが含まれます。
タグの前後のテキストを1つのコメントとして取得する方法はありますか?ここで
は、ソースコード
<li="comment-body"> ==$0
"
愛の言葉も、この瞬間は辛い。"
<br>
"
胸が締め付けられそうだ。"
のサンプルですこれは私のコードです:
import scrapy
class HamusoSpider(scrapy.Spider):
name = 'hamuso'
start_urls = ['http://hamusoku.com/archives/9589071.html#comments/']
def parse(self, response):
for com in response.css('li.comment-body'):
item = {
'comment': com.css('li::text').extract_first()
}
yield item
これは私がシェルに取得しています出力されます:
{'comment': '\n\t\n\tかなしいなぁ'}
{'comment': '\n\t\n\t海老蔵…つらいな'}
{'comment': '\n\t\n\t海老蔵には頑張って欲しいな'}
{'comment': '\n\t\n\t御冥福をお祈りします'}
{'comment': '\n\t\n\t泣かすなや。'}
{'comment': '\n\t\n\t海老蔵これからしっかりせなアカンぞ'}
{'comment': '\n\t\n\t愛の言葉も、この瞬間は辛い。'}
{'comment': '\n\t\n\tただただ涙が止まらない会見だった'}
最後の2つのコメントは両方とも
タグを持ち、どちらの場合もコメントの2番目の部分は省略されています。
本当にありがとうございます。
はとてもありがとうです、これはすべてのコメントのリストを返します
extract()
を使用多く!あなたは最高です、私はそれを修正しようと2時間を費やしたとは信じられません。 –@JakeOlesniewicz他人を助けることができるように、これを受け入れられた回答としてマークしてください –