stop-words

0熱

1答えて

私はストップワードフィルタで遊んでいます記事を含むファイルへのパスをスクリプトに送ります。私はエラーを取得するしかし： Traceback (most recent call last): File "stop2.py", line 17, in <module> print preprocess(sentence) File "stop2.py", line 10, in prepro

1熱

1答えて

NLTKを使用したエンコードの問題

私は、憎悪や人種差別の検出に関する研究のために非常に「右側の」ウェブサイトをクロールしようとしています。私はPythonでいくつかのストップワードと句読点を削除しようとしていますが、NLTKを使用していますが、私はエンコーディングの問題に遭遇しました...私はpython 2.7を使用しています。 stop_words = set(nltk.corpus.stopwords.words("eng

3熱

1答えて

Solr - SeachHandlerのSeachComponentを最小一致= 100％で構成し、検索クエリからストップワードを無視します。

solr.StopFilterFactoryでインデックス分析を設定しました。したがって、ストップワードは索引付けされません。我々はストップワードの検索クエリ用語 <analyzer type="query"> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class="solr.StopFilter

2熱

1答えて

Spacy is_stop関数（バグ？）

以下のコードを使用して、単語が停止単語かどうかを確認しています。以下に示すように、tryブロックが失敗すると、IS_STOP関数はエラーをスローしています。 import spacy nlp = spacy.load('en') try: print 0/0 #Raise and Exception except: print nlp.is_stop('is')` 私

2熱

1答えて

特定の単語を使用すると、正規表現が予期せず動作する

文字列からストップワードを削除しようとしています。いくつかの単語の組み合わせで驚くべき結果が発生しました。以下は、この動作を示す最小の例です。 #!/usr/bin/env python # -*- coding: utf-8 -*- import re import json en = ''' ["different","doesn't","doing","don't","don

9熱

2答えて

spacyを使用したストップワードの追加/削除

spacyを使用してストップワードを追加/削除する最良の方法は何ですか？私はtoken.is_stop機能を使用しており、お手入れのためにいくつかの変更を加えたいと思います。私はドキュメンテーションを見ていましたが、ストップワードに関しては何も見つかりませんでした。ありがとう！

3熱

1答えて

NLP - なぜ "not"がストップワードですか？

トピックのモデリングを実行する前にストップワードを削除しようとしています。私はいくつかの否定言葉（not、not、never、noneなど）が通常はストップワードとみなされることに気づいた。たとえば、NLTK、spacy、sklearnには、ストップワードリストに「not」が含まれています。しかし、以下のこれらの文から「not」を削除すると、有意義な意味が失われ、トピックモデリングやセンチメント分

0熱

2答えて

Pythonエラー - 同じステートメントではない

私はPython 3.5を使用しています。データセットからNLTK stopWordsを削除しようとしています。両方を組み合わせたステートメントを実行します。& IF NOT one statementエラー。エラーを検索しても有用な結果は得られませんでした。以下に添付コードとエラースナップショットは、ここで base_data['stemmed_stop_comments'] = [word

0熱

1答えて

ストップワードをフィルタリングする

私は単純なワードカウントプログラムを作成しましたが、nltk（下記参照）を使用してリストからよく使われる単語をフィルタリングしようとしています。私の "周波数"リストに私の "停止"フィルタを適用するにはどうすればよいですか？ #Start from nltk.corpus import stopwords import re import string frequency = {}