2016-12-23 6 views
-4

私はテキスト処理を行っています。ユニコード文字と単語の配列があります。私はそれらを分割して、機械学習アルゴリズムにデータを処理することができます。例えばPython 3.5のユニコード記号と別の単語

arr = ['mpla mpalampla', 'mpala' , 'mpalampala', ''] 

と私はこれ欲しい:これは私の配列です

私はそれは複雑な問題である知っている

resultarr = ['mpla', 'mpala', '', 'mpla', 'mpala', '', '', 'mpalampala', '',''] 

を、詳細についてはお気軽にお尋ねください。 。

+0

使用 're.findall中のx(R" \ sの+のための編曲でのアイテムの[X |([a-zA-Z]の+を| \ S) "、item)if x]' –

+0

これはうまく動作します – dapo

+0

はい、上記の文字列です。しかし、あなたが何をしているのかわからないので、私は答えを投稿することができません。このタスクの仕様とそれを解決しようとしたものを更新してください。そうでなければ、疑問は不明確になるはずです。 –

答えて

1

あなたは簡単にそれが正規表現を使用して行うことができます。

import re 

arr = ['mpla mpalampla', 'mpala' , 'mpalampala', ''] 

temp_str = " ".join(arr) 

resultarr = re.split(r'([^a-z]|\s)', temp_str) 

resultarr = list(filter(
    lambda item: item not in ('', ' '), 
    resultarr 
)) 

print(resultarr) # ['mpla', 'mpala', '', 'mpla', 'mpala', '', '', 'mpalampala', '',''] 
+0

Thxさんの仕事は...... !!!! Fomalhaut名誉 – dapo

+0

あなたは最高です – dapo

+0

あなたは大歓迎です。 – Fomalhaut

関連する問題