2016-03-23 10 views
0

imdbパッケージを使用して単純なpythonプログラムを作成して、データベースから映画情報を抽出しようとしましたが、なぜコードが空のリストを返すのか分かりません。私の推測では、ウェブサイトから(。*?)を使って)URL情報を抽出する方法が間違っているということです。私はウェブページからURLリンクを抽出したい。ここにコードがあります。ありがとう!pythonクローラの抽出URLが機能しない

import urllib 
import re 
import imdb 
imdb_access = imdb.IMDb() 

top_num = 5 

movie_list = ["The Matrix","The Matrix","The Matrix","The Matrix","The Matrix"] 


for x in xrange(0,top_num): 
    contain = imdb_access.search_movie(movie_list[x]) 

    ID = contain[0].movieID #str type 

    htmltext = (urllib.urlopen("http://www.imdb.com/title/tt0133093/?ref_=nv_sr_1")).read() 
    # a pattern in the website 
    regex = regex = '<img alt="The Matrix Poster" title="The Matrix Poster" src="(.*?)" itemprop="image">' 
    pattern = re.compile(regex) 
    #print (str((pattern))) 
    result = re.findall(pattern,htmltext) 
    print result 
    #print type(htmltext) 

答えて

0

私はこの問題は、新しい行にあると思いますが持つことができる(。* \ nは*。*?)

+0

おかげで、それはまだ私に同じ結果を与えます。 – 781850685

+0

あなたは '' –

+0

として正規表現を試すことができますか、ありがとう。それは画像のURLを返しますが、それはウェブサイト上の間違った画像です。私はコードの特定の行の中にURLを探しています。どういうわけか、その前に「The Matrix Poster」を追加できますか? – 781850685