私はテキスト処理を行っています。ユニコード文字と単語の配列があります。私はそれらを分割して、機械学習アルゴリズムにデータを処理することができます。例えばPython 3.5のユニコード記号と別の単語
:
arr = ['mpla mpalampla', 'mpala' , 'mpalampala', '']
と私はこれ欲しい:これは私の配列です
私はそれは複雑な問題である知っている
resultarr = ['mpla', 'mpala', '', 'mpla', 'mpala', '', '', 'mpalampala', '','']
を、詳細についてはお気軽にお尋ねください。 。
使用 're.findall中のx(R" \ sの+のための編曲でのアイテムの[X |([a-zA-Z]の+を| \ S) "、item)if x]' –
これはうまく動作します – dapo
はい、上記の文字列です。しかし、あなたが何をしているのかわからないので、私は答えを投稿することができません。このタスクの仕様とそれを解決しようとしたものを更新してください。そうでなければ、疑問は不明確になるはずです。 –