2
re apiを使用してテキストファイルからURLを抽出しようとしました。 http://、https://、およびwwwで始まるリンク。正規表現を使用したURLリンクの抽出re-string matching - Python
ファイルにはテキストとHTMLソースコードが含まれています.Html部分はBeautifulSoupを使用して抽出できるので簡単ですが、通常のテキストは難しいようです。 これはURL抽出の最適な実装であるように見えますが、特定のタグでは失敗します。特にタグを処理できず、URLにそれらを含めます。 任意のヘルプは、私はすべての文字列マッチングに慣れていないだから自分がここに
、感謝署名がsp1=re.findall("http[s]?://(?:[a-zA-Z]|[0-9]|[[email protected]&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", str(STRING))
sp2=re.findall('www.(?:[a-zA-Z]|[0-9]|[[email protected]&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', str(STRING))
例です:
http://www.website.com/science/</span></a><o:p></o:p></span></div><div
www.website.com/library/</span></a></span></i><span
http://awebsite.com/Groups</a><div>
素晴らしい、作品はチャンピオンのようです:) ..おかげで仲間 – Eternity