コーパスにタグを付けるので、すべてのストップワードにNOTRELATEDというラベルを付ける必要があります。私はそれをPythonでやろうとしましたが、Pythonで新しく動作しませんでした。ファイル内の特定の文字列セットに文字列を追加する方法
stop_words = set(stopwords.words('english'))
for line in word_tokenize(input_file):
if stop_words in line:
line = line + " NOTRELATED\n"
output_file.write(line)
サンプル入力(テキストファイル):
コスト
の
ダメージ
農業
から
と
インフラ
で エリア
荒廃
台風
ランドー
によって は
より
より
にP6.3
億
を
が急増しています。
出力(ファイル):
コストNOTRELATED
損傷の
NOTRELATED
農業へ
とNOTRELATED
インフラNOTRELATED
分野
で
。
。 。
あなたがファイルに取得する出力は何ですか? – MaNKuR
'stop_words in line:'これは、stop_wordsの単語が並んでいるかどうかをチェックしません。あなたの 'stop_words'セットを反復処理し、その中のすべての単語をチェックする必要があります。 – Vinny
@MaNKuRの空白。 –