2017-06-21 18 views
0

これまでのところ、私のコードは、サブコードの名前が与えられたときに5つの結果からHTMLコードを取り除くことに成功しました。今は、imgurリンクの検索をしたいのですが、それはアルバム用か、/ a /または一つの画像用かを問わずです。私はこのリンクを持ち上げて別のクラスに送ります(imgurdl)PythonのサブレッジからImgurリンクを掻き集める

私の現在のコードは何ですか?

from bs4 import BeautifulSoup 
import praw 
from urllib2 import urlopen 
import urllib2 
import sys 
from urlparse import urljoin 
import config 
import imgurdl 
import requests 

cache = [] 
soup = BeautifulSoup 
def reddit_login(): 
    r = praw.Reddit(username = USER, 
       password = config.password, 
       client_id = config.client_id, 
       client_secret = config.client_secret, 
       user_agent = " v0.3" 
       ) 
    print("***********logged in successfully***********") 
    return r 

def get_category_links(subredditName, r): 
    print("Grabbing subreddit...") 
    submissions = r.subreddit(subredditName).hot(limit=5) 
    print("Grabbing comments...") 
    #comments = subred.comments(limit = 200) 
    for submission in submissions: 
     htmlSource = requests.get(submission.url).text 
     print (htmlSource) 


r = reddit_login() 
get_category_links(sys.argv[1], r) 
+0

これまでに何を試みましたか?なぜRedditのAPIを使用しないのですか? –

+0

@KevinMGranger私はそれがあることを知らなかったし、私はそれに精通していない。あなたはドキュメントへのリンクを持っていますか?私はファッションでリンクを持ち上げることができますか?これまで何も試していません。 – BitLord

+0

HTMLコード内にimgurリンクを見つけるには、 're'を使うことができます。 – BurningKarl

答えて

0

あなたはPRAWからURLを取得し、それがループ自体内imgurからであるかどうかを確認し、適切な機能にそれを送信するためにチェックすることができます。この方法では、htmlソースを経由する必要はありません。

for submission in submissions: 
    link = submission.url 
    if "imgur.com/a/" in link: 
     #Send to imgur album downloader 
    elif link.endswith(".jpg") or link.endswith(".png"): 
     #Sent to image downloader 
    elif "imgur.com/" in link: 
     #Send to single image imgur downloader 
関連する問題