Python：区切り文字のリストで区切り文字

Pythonでは、区切り文字のリストを使用して文字列を分割したいと思います。セパレータはカンマまたはセミコロンのいずれかです。空白は非空白で区切られていない文字の途中にある場合を除き、削除する必要があります。Python：区切り文字のリストで区切り文字

テストケース1：ABC,DEF123,GHI_JKL,MN OP
テストケース2：ABC;DEF123;GHI_JKL;MN OP
テストケース3：ABC ; DEF123,GHI_JKL ; MN OP

は大丈夫です正規表現の場合、同じように聞こえるが、それは簡単またはクリーナーだ場合、それを別の方法を行うためにそれはさらに良いでしょう。

ありがとうございます！正規表現を使用して

出典

2011-01-14 blah238

これは、はるかに高速正規表現、その後でなければなりません、あなたが望んでいたとして、あなたはseperatorsのリストを渡すことができます。

それを使用する方法

def split(txt, seps): 
    default_sep = seps[0] 

    # we skip seps[0] because that's the default seperator 
    for sep in seps[1:]: 
     txt = txt.replace(sep, default_sep) 
    return [i.strip() for i in txt.split(default_sep)]

：

>>> split('ABC ; DEF123,GHI_JKL ; MN OP', (',', ';')) 
['ABC', 'DEF123', 'GHI_JKL', 'MN OP']

性能試験：

import timeit 
import re 


TEST = 'ABC ; DEF123,GHI_JKL ; MN OP' 
SEPS = (',', ';') 


rsplit = re.compile("|".join(SEPS)).split 
print(timeit.timeit(lambda: [s.strip() for s in rsplit(TEST)])) 
# 1.6733491150007467 

print(timeit.timeit(lambda: split(TEST, SEPS))) 
# 1.6442800510003508

出典

2011-01-14 23:35:56 Joschua

非常に良い。最高の答えとしてこれを選ぶ必要があります。皆さんありがとう！ – blah238

SOは空白を圧縮し、上の文字列に2つ以上の連続した空白があります。 – fabrizioM

ありがたいことに、常にコンマまたはセミコロンのどちらかがあります。 – blah238

、なし

[s.strip() for s in re.split(",|;", string)]

または

[t.strip() for s in string.split(",") for t in s.split(";")]

を試してみてください。

出典

2011-01-14 23:27:49

代わりに、文字列の 'split（）'を使用して、 're'をインポートしないようにします。 'ABC、DEF123、GHI_JKL、MN OP'.split（ '、|;'）' – marcog

@macrog：これは、文字列を ''、|; ''のすべての逐語的な出現で分割しませんか？ –

素晴らしい作品です！ありがとう:) – blah238

>>> re.split('\s*,\s*|\s*;\s*', 'a , b; cdf') 
['a', 'b', 'cdf']

出典

2011-01-14 23:36:40

あなたのテストケースで、正規表現を使いたい場合は、の1つ以上の分離文字を使用します。あなたの場合、分離文字は '、'、 '|'、 ';'空白。

import re 
list = [s for s in re.split("[,|;\W]+", string)]

私は上記の答えのをスヴェンする返信することはできませんが、私は、カッコ内の文字の一つ以上に分割し、使用する必要はありません：Pythonで空白は理解があるので、「W \」ですstrip（）メソッド

私は質問を正しく読まなかった...ストリップのスヴェンの答えが働く。私は空白が別の分離であると仮定します。

出典

2011-01-14 23:39:53 tmarthal

Python：区切り文字のリストで区切り文字

答えて

関連する問題