複数のサイトから電話番号を検索する。 各サイトに異なるセクション/クラス/フォーマットなどがある可能性があります。電話番号を検索
正規表現またはクラスを含むクラスを使用して電話番号を見つけるのは難しいです。
だから、任意のヘルプが
私のコードを高く評価しているが
def parse1(self, response):
hxs = Selector(response)
titles = hxs.xpath('/html/body')
items = []
for titles in titles:
item = GenericCrawlerItem()
item["phone"] = re.findall('/^\s*(?:\+?(\d{1,3}))?([-. (]*(\d{3})[-.)]*)?((\d{3})[-. ]*(\d{2,4})(?:[-.x ]*(\d+))?)\s*$/gm', response.body)
item["phone"] = titles.xpath('//div[contains(text(), "tel")]/text()').extract()
items.append(item)
return items
感謝です!
編集:彼らはそれらの一つ一つに記入されていない場合でも
(xxx)xxx-xxxx
xxx)xxx-xxxx
xxx.xxx.xxxx
xxx xxx xxxx
x(xxx)xxx-xxxx
x(xxx)xxx.xxxx
x.xxx.xxx.xxxx
+x(xxx)xxx-xxxx
+x.xxx.xxx.xxxx
:私が探しているフォーマットは、主に標準イムなどの疑いになります。カップルが非常に役立つだろう!
あなたは、異なるフォーマットがあることを伝えています。フォーマットを指定してください – rock321987
そのヘッドアップをありがとう!更新された質問 –
これはPythonです。 '/..../ gm'の必要はなく、これらのスラッシュと' gm'を削除します。 (\ d {3})[*]?)((\ d {3})) [ - 。] *(\ d {2,4})(?:[ - 。x] *(\ d +))?) '' –