ポルトガル語の文字列をステミングする必要があります。これを行うには、nltk.word_tokenize()関数を使用して文字列をトークンし、各単語を個別にステミングします。その後、私は文字列を再構築します。それは機能していますが、うまく機能しません。どうすれば速くすることができますか?文字列の長さは約200万語です。Pythonで文字列全体をステミングする
tokenAux=""
tokens = nltk.word_tokenize(portugueseString)
for token in tokens:
tokenAux = token
tokenAux = stemmer.stem(token)
textAux = textAux + " "+ tokenAux
print(textAux)
英語とおかげで申し訳ありません!
これは完全に機能しました!みんな、ありがとう。 – yuridamata
@yuridamata素晴らしい! 'ハッピーコーディング.' – 0p3n5ourcE