2017-07-06 7 views
0

"www.blah.com/en-us"などの形式のURLリストがあり、 "www.blah.com"の後ろにあるものはすべて切り捨てる必要があります。私は、以下のものを使用して試してみた:パターンに基づいて変数の最後を切り捨てます

import re 
website = www.blah.com/en-us 
cleanURL = re.sub('(.|\n)*?com', "", website) 

出力:「EN-US」

だから私は、私が何をしたいの反対を取得しています。申し訳ありませんが、この投稿が正しくフォーマットされていない場合は、初めて質問します。

+0

あなたのコードを実行すると、私は 'en-us'を取得しません。' NameError:name 'www'が定義されていません。これがあなたが実行している正確なコードだと確信していますか? – Kevin

+0

https://stackoverflow.com/questions/27745/getting-parts-of-a-url-regexの重複の可能性あり –

答えて

2

正規表現は必須ですか?処理しようとしているURLにプロトコル(http://など)がない場合は、最初に '/'のインスタンスに分割するyour_url_string.split('/', 1)[0]を使用して、分割前の部分を提供することができます。

4

方法だけ

website = "www.blah.com/en-us" 
cleanURL = website.split("/",1)[0] 

を使用してはどうですか?

+1

条件は必要ありません。 "" www.blah.com ".split("/")== [" www.blah.com "]' – chepner

+0

ああ、そうだね、ありがとう。 – Fulgen

関連する問題