私はPythonでアプリケーションを構築しています。すべてのリンクのURLを1つのWebページで取得する必要があります。 urllibを使ってhtmlファイルをWebからダウンロードし、readlines()で文字列のリストに変換する関数をすでに持っています。<a>すべてのhref属性の値をPythonのhtmlファイルのタグに取得する
現在、私はすべてのライン内のリンクを検索するために正規表現を使用しています(私はそれで非常に良好ではないよ)このコードを持っている:それだけのために「None」を印刷しないよう
for line in lines:
result = re.match ('/href="(.*)"/iU', line)
print result
これは、動作していませんファイル内のすべての行が表示されますが、少なくとも私が開いているファイルには3つのリンクがあることを確信しています。
誰かが私にこのことに関するヒントを与えることができますか?事前
* Sigh *、正規表現でHTML/XMLを解析しようとしているもう1つの質問。参考までに、これはお勧めしません、eduffyが提案したようにパーサを使用してください。 –
なぜ正規表現を使用する必要がありますか?なぜhtmllibはオプションではないのですか? –
ほとんどの場合、私はいくつかの正規表現を学ぼうとしていたので、 – rogeriopvl