2017-07-28 24 views
1

私はPythonで作業していますが、壊れたリンクを復元するためにURLの空白を削除したいと思います。スラッシュ "/"の後の空白を取り除く方法

これは私が対処しなければならない典型的なケースです。何かHTTPSについて

テキスト:// sr.a I/GMF

リンクは期待できスラッシュ(/)の後に1つのブランクスペースがあります。しかし、他の空白スペースをランダムに配置することもできます。まず

は、私は、このコードは、スラッシュの直後に空白を置き換えるために正常に動作し

.replace('/ ', '//') 

スラッシュ(/)の後に存在する場合スペースを修正したいのですが、修正する方法がありますテキストの意味を保持する必要があるので、空白が他の場所にあればリンクしてください。

+0

の周りに再生することができますなぜ単純にすべてのスペースを削除していませんか? –

+0

私は他のテキストを持っているので、私はそれを保存する必要があります。実際には、リンクを修正する必要があるのは、それを削除してテキストのみを保持するためです。 – Alex

+0

単一のスラッシュは特別な方法では処理されません。 –

答えて

2

次の正規表現でhttps://docs.python.org/3.6/library/re.html libに正規表現を使用し

import re 
text = re.sub(r"[/]\s", "/", text) 
# r"" --> regexp in python 
# [/] --> slash 
# \s --> blank 

あなたが特定のコーナーケースのために正規表現をより安定に

2

string.replace()関数を使用し、空白文字列で置き換えてください。

>>> my_string = "https:// sr.a i/gMF" 
>>> my_string 
'https:// sr.a i/gMF' 
>>> my_string.replace(" ","") 
'https://sr.ai/gMF' 
+0

これは文字列内の空白をすべて削除しますが、別の単語を分かち書きしておく必要があります。 – Alex

+0

リンクは常に回線の終わりにありますか?たとえば、「単語単語http:// some .link more words words words」と言うことができるインスタンスがすべて存在するのでしょうか? –

+0

残念ながら、それはどこでもテキスト内にある可能性があります – Alex

1

たぶん.replace(' ','')は多くの空白、import re(正規表現)があるwork.Ifがお手伝いします。このonline regexp editor

+0

re(正規表現)がどのように問題を解決するのに役立つかをもっと説明できますか? – Alex

+0

申し訳ありませんが、あなたは別の言葉を分けておく必要があるか分かりません。結果の文字列をもう一度変更するのはどうですか? – chuchienshu

関連する問題