ファイル内のデータ列からストップワードを削除したいとします。 エンドユーザーが話しているときのために回線を除外しました。 しかし、ストップワードを除外しませんusertext.apply(lambda x: [word for word in x if word not in stop_words])
何が間違っていますか?ファイルからのストップワードの削除
import pandas as pd
from stop_words import get_stop_words
df = pd.read_csv("F:/textclustering/data/cleandata.csv", encoding="iso-8859-1")
usertext = df[df.Role.str.contains("End-user",na=False)][['Data','chatid']]
stop_words = get_stop_words('dutch')
clean = usertext.apply(lambda x: [word for word in x if word not in stop_words])
print(clean)
最初にyすべての単語を削除するかどうかを調べるには 'clean = usertext.apply(lambda x:[])'を試してみてください。 –
データ[] chatid [] dtype:object ['aan'、 'al'、 'alles'、 'als'、 'altijd'、 'andere'、 'ben'、 'bij' 「デー」、「ダー」、「デー」、「デ」、「デゼ」、「ダイ」、「デット」、「ドク」、「ドゥーン」、「ドア」、「デュー」、 'ヘン'、 'ヘブン'、 'ヘブン'、 'ヘブン'、 'ヘム'、「ヘン」、「ヘン」、「ヘン」、 'hoe'、 'hoe'、 'hun'、 'iemand'、 'iets'、 'ik'、 'in'、 'is'、 'ja'、 'je'、 ' 「ミーン」、「ミーン」、「ミーン」、「マン」、「ミート」、「ミー」、「ミーン」、「モエ」、「ナ」、「ナール」、 'niet'、 'nu'、 'of'、 'om'、 'omdat'、...]これは両方とも – DataNewB