2016-04-17 14 views
-1

ウェブページから値を抽出しようとしています。Pythonを使用してウェブページ全体を抽出できません

IからこすりしようとしているURLは次のとおりです。 http://www.flipkart.com/philips-qt4005-15-trimmer/p/itmdze53vthypqhb?pid=SHVDGGZPC8PXJ7HR&al=wUEQZ4vph4oJqeH0CGNkrsldugMWZuE7eGHgUTGjVrpjizeD%2FNvlpAEwWx6I1Qy9R9ViMaFmI%2Bc%3D&ref=L%3A-1246372967349401781&srno=b_1

と私は抽出する値がTue, 19th Aprです。

まず、次のコードを使用して、htmlページのソースをローカルファイルに保存しました。

for line in soup.findAll('div', class_="delivery-ndd-help-message fk-hidden"): 
    for line1 in line.findAll('span',class_="fk-bold"): 
     ddate = line2.text 
     print (str(ddate)) 

しかし、このプログラムは、null値が返されました:

import requests 
from bs4 import BeautifulSoup 
import re 
f = open("deldate.csv",'w') 
g = open("flip.csv",'w') 
request = requests.get("http://www.flipkart.com/philips-qt4001-15-trimmer-men/p/itmdu7ymtpdptghq?pid=SHVDU7YMTPDPTGHQ&al=wUEQZ4vph4o9VS1qRXcBE8ldugMWZuE7eGHgUTGjVrrcVamAbZwaUArMgFo2ArKEQzMEtMlIvg8%3D&ref=L%3A6510162326865727417&srno=p_2&query=trimmers+for+men&otracker=from-search").text 
soup = BeautifulSoup(request) 
g.write(str(soup)) 

は、それから私は、値を抽出するために、次のコードを書きました。だから、私はファイルを開き、ウェブページのhtmlを保存し、 '火曜日、4月19日'を検索しようとしましたが、それを見つけることができませんでした。

私は、ウェブページからのすべてのコンテンツを抽出することを希望して

import urllib2 
request = urllib.open(""http://www.flipkart.com/philips-qt4001-15-trimmer-men/p/itmdu7ymtpdptghq?pid=SHVDU7YMTPDPTGHQ&al=wUEQZ4vph4o9VS1qRXcBE8ldugMWZuE7eGHgUTGjVrrcVamAbZwaUArMgFo2ArKEQzMEtMlIvg8%3D&ref=L%3A6510162326865727417&srno=p_2&query=trimmers+for+men&otracker=from-search") 

を使用してみましたが、それでもそれが動作するようには思えません。

ウェブページからすべてのコンテンツを抽出するには、より良い方法があるとお考えですか?

+0

私は自分でリンクを開きますブラウザと私は '火曜日、4月19日'を見つけることができません –

+0

こんにちは@AminahNuraini、私もそれを見つけるのが苦労している..それは私が質問を投稿した理由..私は十分にはっきりしなかった場合は申し訳ありません.. –

答えて

0

が代わりにこれを試してみてください:

import urllib 
from bs4 import BeautifulSoup 

url = "http://www.flipkart.com/philips-qt4005-15-trimmer/p/itmdze53vthypqhb?pid=SHVDGGZPC8PXJ7HR&al=wUEQZ4vph4oJqeH0CGNkrsldugMWZuE7eGHgUTGjVrpjizeD%2FNvlpAEwWx6I1Qy9R9ViMaFmI%2Bc%3D&ref=L%3A-1246372967349401781&srno=b_1" 
html = urllib.urlopen(url).read() 

soup = BeautifulSoup(html) 

これは全体のWebページを収集します。今、あなたは段落タグや何かを検索したい場合は、この行を使用することができます。タグを通じて

tags=soup('p') 

その後することができますループを、あなたが興味を持っているデータを検索

0

おそらくRECENT TOP REVIEWSのリストを参照してください。

日付は特定のクラスreview-dateです。

はその上でフィルタリングしてください:

soup.findAll('p', class_="review-date")

関連する問題