0
ウェブサイトからの治療でテキストを取得したい。これはサンプルコードです:スクラブを使用してデータをクロールする際にシンボルを削除する
def parse(self, response):
for kamusset in response.css("div#d1"):
text = kamusset.css("div b::text").extract()
print(dict(text=text))
私は削除したいです記号とすべての数字記号。だから、私は正規表現を使用します。私は私のコード変更:
def parse(self, response):
for kamusset in response.css("div#d1"):
text = kamusset.css("div b::text").re(r'[a-z]+')
print(dict(text=text))
私はそのような結果を期待してはいけません。私はこのようになりたい:
{'text':['abadi'、 'mengabadi'、 'mengabadikan'、 'pengabadian'、 'keabadian']}どうやってするか?あなたはtext
からあなたを解析することができます