は、テキストのコーパスで見つかったトップn最も一般的なバイグラムの、top_n、私はタプルのリストを持っていると言う: import nltk
from nltk import bigrams
from nltk import FreqDist
bi_grams = bigrams(text) # text is a list of strings (tokens)
fdistBigra
NLTKのsynsetsに特定の単語が存在するかどうかチェックしたいと思います。次のコードはそれを行います。 from nltk.corpus import wordnet
if wordnet.synsets(word):
... do something ...
しかし、確認する単語がたくさんある場合は遅くなります。より速い方法がありますか? 私は実際のsynsetオブジェクト
私はユーザーレビューデータセットを持っています。このデータセットを読み込んでいますが、分類基準に適合させる前にユーザーのレビューを事前処理しています(停止語、句読点の削除、小文字への変換、挨拶の削除など)。エラーが発生しています。ここに私のコードは次のとおりです。 import pandas as pd
import numpy as np
df=pd.read_json("C
のmovie_reviewsのデータセットunigramモデルのトレーニングコードを以下に示します。 bigram、trigramモデルを考慮して、その性能を訓練し分析したいと思っています。どうすればそれをすることができますか? import nltk.classify.util
from nltk.classify import NaiveBayesClassifier
from nltk.