私は、numpyだけを使ってPythonでストップワードを削除する作業を進めています。ストップワードファイルはリストとしてインポートされます。だからここに私が思い付いたものです:PythonのNumpyのみを使用してリストからストップワードを削除する
方法1、私はストップワードリストをループしてみてください、とtw_line
# loop through the stop words list, and remove each one from the splitted line list
for line in stopwords:
if line in words:
words.remove(line)
continue
print (tw_line)
結果から皆を削除:NOストップワードが削除されていません。
0 my whole body feels itchy and like its on fire
方法2、私は結果
# loop through the line, and check with stop words, if not in stop words, add to clean_line
clean_line=[]
tw_line.split(" ")
for line in tw_line:
if line in stopwords:
clean_line.append(line)
print(clean_line)
、ストップワードリストをループする単語を試してみてください:すべての単語は文字
['m', 'y', 'w', 'h', 'o', 'l', 'e', 'b', 'o', 'd', 'y', 'f', 'e', 'e', 'l', 's', 'i', 'c', 'h', 'y', 'a', 'n', 'd', 'l', 'i', 'k', 'e', 'i', 's', 'o', 'n', 'f', 'i', 'r', 'e']
すべてのヘルプに分かれていますか?
>>> str1 = "my whole body feels itchy and like its on fire"
>>> str1.split()
['my', 'whole', 'body', 'feels', 'itchy', 'and', 'like', 'its', 'on', 'fire']
>>>
そしてストップワードにある単語を削除します。
質問は何ですか?そして、 'numpy'はこれにどのように関係していますか?データがどのようなものかの例を含めると便利です。 –
メソッド2で使用している '.split'メンバ関数が"適切な場所 "で動作していない(どのようにすればよいでしょうか?それは新しい型(文字列からのリスト)を生成しています)、戻り値を 'tw_line'または新しい変数に_assign_する必要があります。 –
numpyが使用できる唯一のlibです...私は他のlibsの組み込みメソッドを使用することはできません。 –