0
私は長さが<のすべての単語をフィルタリングする単純な関数を使用しています。したがって、次の関数を記述しました。文字列内の単語数を減らす
def my_tokenizer(tokens):
tokens = [t for t in tokens if len(t) > 3]
return tokens
x = my_tokenizer("sdfgds hj")
print x
Xただし、空の配列です。私が間違っているところにはどんな考えがありますか?
'[t] in tkens.split( '')if len(t)> 3]'?それ以外の場合は、文字ごとに文字列をループします。 – Psidom
別の方法として、 'filter'関数を使用する方法があります(これは質問に「filter」という言葉を特に使用するためです)。 'return list(filter(lambda x:len(x)> 3、tokens.split()))'となります。 –