私のCSVファイルから、特定の品詞タグVBD
とVBN
でタグ付けされた単語を削除します。次のコードを入力した後:「範囲外のリストインデックスはIndexError」:しかし、私はエラーを取得していますCSVファイルから「VBD」と「VBN」を除くすべてのPOSタグを削除するにはどうすればよいですか?
for word in POS_tag_text_clean:
if word[1] !='VBD' and word[1] !='VBN':
words.append(word[0])
私のCSVファイルには、10人の口コミ(10件)を持ち、行名はComment
です。ここで
は私の完全なコードです:
df_Comment = pd.read_csv("myfile.csv")
def clean(text):
stop = set(stopwords.words('english'))
exclude = set(string.punctuation)
lemma = WordNetLemmatizer()
tagged = nltk.pos_tag(text)
text = text.rstrip()
text = re.sub(r'[^a-zA-Z]', ' ', text)
stop_free = " ".join([i for i in text.lower().split() if((i not in stop) and (not i.isdigit()))])
punc_free = ''.join(ch for ch in stop_free if ch not in exclude)
normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split())
return normalized
text_clean = []
for text in df)Comment['Comment']:
text_clean.append(clean(text).split())
print(text_clean)
POS_tag_text_clean = [nltk.pos_tag(t) for t in text_clean]
print(POS_tag_text_clean)
words=[]
for word in POS_tag_text_clean:
if word[1] !='VBD' and word[1] !='VBN':
words.append(word[0])
は、どのように私は、エラーを修正できますか?
を、 'NN' と 'JJ' は 'VBD' と 'VBN' に変更する必要があります。ごめんなさい。 – bluesun
エラーが発生している場所を追加してください。 –
エラー( 'IndexError:リストインデックスが範囲外です)は、上記の最後のコードを入力した後に発生します。 の単語はPOS_tag_text_clean: word [1]!= 'VBD'とword [1]!= 'VBN': words.append(word [0]) – bluesun