2017-02-23 5 views
0

HTMLのWebページリンクを見つけるための正規表現パターンが必要です。私はある言葉に "Download here:"の隣にあるリンクを見つける必要があります。単語の隣のリンクの正規表現パターン

これは、HTMLは、いくつかの例のように見える方法です:

Download here: <a href="/images/alex.jpg">AlexPicture</a> 
Download here: <a href="/images/nat.jpg">NAT</a> 
Download here: <a href="/images/dog/pat.jpg">Pat the dog</a> 
Download here: <a href="/images/chuchu.jpg.jpg">ChuChu</a> 

私はそのリンクを取得する必要がありますが、私はこれでtottaly新しい午前の仕事にこれを取得することはできませんので、私は知っている人が必要私を助ける正規表現。

+0

を参照してください、私は非常にライブラリをこするHTMLを見てお勧めしますこれを行うには、[美しいpythonの](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)のように。 [彼はさまざまな言語のgithubからの良いリストです](https://github.com/lorien/awesome-web-scraping)。 regexを使ってHTMLを解析するのではなく、[cthulhuを目覚めさせたくありません](http://stackoverflow.com/a/1732454/4689736)。 – thodic

答えて

1

あなたはHTML内のすべてのWebページのリンクを見つけるために(positive lookahead & lookbehindを使用して)次正規表現を使用することができます。

(?<=Download here:\s<a\shref=").*?(?=">) 

demo/explanation