stop-words

    0

    1答えて

    私はストップワードフィルタで遊んでいます 記事を含むファイルへのパスをスクリプトに送ります。 私はエラーを取得するしかし: Traceback (most recent call last): File "stop2.py", line 17, in <module> print preprocess(sentence) File "stop2.py", line 10, in prepro

    1

    1答えて

    私は、憎悪や人種差別の検出に関する研究のために非常に「右側の」ウェブサイトをクロールしようとしています。 私はPythonでいくつかのストップワードと句読点を削除しようとしていますが、NLTKを使用していますが、私はエンコーディングの問題に遭遇しました...私はpython 2.7を使用しています。 stop_words = set(nltk.corpus.stopwords.words("eng

    3

    1答えて

    solr.StopFilterFactoryでインデックス分析を設定しました。したがって、ストップワードは索引付けされません。 我々はストップワードの検索クエリ用語 <analyzer type="query"> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class="solr.StopFilter

    2

    1答えて

    以下のコードを使用して、単語が停止単語かどうかを確認しています。以下に示すように、tryブロックが失敗すると、IS_STOP関数はエラーをスローしています。 import spacy nlp = spacy.load('en') try: print 0/0 #Raise and Exception except: print nlp.is_stop('is')` 私

    2

    1答えて

    文字列からストップワードを削除しようとしています。 いくつかの単語の組み合わせで驚くべき結果が発生しました。以下は、この動作を示す最小の例です。 #!/usr/bin/env python # -*- coding: utf-8 -*- import re import json en = ''' ["different","doesn't","doing","don't","don

    9

    2答えて

    spacyを使用してストップワードを追加/削除する最良の方法は何ですか?私はtoken.is_stop機能を使用しており、お手入れのためにいくつかの変更を加えたいと思います。私はドキュメンテーションを見ていましたが、ストップワードに関しては何も見つかりませんでした。ありがとう!

    3

    1答えて

    トピックのモデリングを実行する前にストップワードを削除しようとしています。私はいくつかの否定言葉(not、not、never、noneなど)が通常はストップワードとみなされることに気づいた。たとえば、NLTK、spacy、sklearnには、ストップワードリストに「not」が含まれています。しかし、以下のこれらの文から「not」を削除すると、有意義な意味が失われ、トピックモデリングやセンチメント分

    0

    2答えて

    私はPython 3.5を使用しています。データセットからNLTK stopWordsを削除しようとしています。両方を組み合わせたステートメントを実行します。& IF NOT one statementエラー。エラーを検索しても有用な結果は得られませんでした。以下に添付 コードとエラースナップショットは、ここで base_data['stemmed_stop_comments'] = [word

    0

    1答えて

    私は単純なワードカウントプログラムを作成しましたが、nltk(下記参照)を使用してリストからよく使われる単語をフィルタリングしようとしています。 私の "周波数"リストに私の "停止"フィルタを適用するにはどうすればよいですか? #Start from nltk.corpus import stopwords import re import string frequency = {}