ステミング私はプログラミングPythonの間、以下のような問題点に来た:私は(SnowballStemmerを使用して)茎する必要がある単語を含むパンダのデータフレームを使用しています。私は、ステムテキストと非ステムテキストの結果を調べるために言葉を茎にしたいと思います。このために、私は分類子を使用します。私はステマのために次のコードを使用します。Pythonは(パンダのデータフレームで)
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer("dutch")
私は順序を残り、すべての値を持つすべてのキーを維持しながら、リスト内のすべての別々の単語を幹にしたいです。私はこのような何かを考え
:
for w in data[["stemmed"]]:
stemmer.stem(w)
しかし、それぞれ別々の幹なかった、それを実行した後、これは私がすべての別の単語を表示したいからパンダのデータフレームから列が茎でありますワード。次のように
データが区切られている:あなたが行7を見たとき、あなたは実際には「アムステルダム」に茎のことをsuppostedされそこに単語「amsterdamse」を見ることができます
data['stemmed']=data['stemmed'].str.replace(","," ")
data['stemmed']=data['stemmed'].str.replace("_"," ")
を動作するはず?文字列(=文)、または文字列(=単語)の配列?一度に一つの言葉にすることはできません。 –