2017-05-10 4 views
0

nltktweeter_sampleコーパスで訓練したいが、カテゴリ別にサンプルをロードしようとするとエラーが発生する。nltk corpus tweeter_sampleカテゴリ別

from nltk.corpus import twitter_samples 

documents = [(list(twitter_samples.strings(fileid)), category) 
      for category in twitter_samples.categories() 
      for fileid in twitter_samples.fileids(category)] 

を、それは私に、このエラーが発生しました:

まず、私はそのようにしようとした

Traceback (most recent call last): 
    File "C:/Users/neptun/PycharmProjects/Thesis/First_sentimental.py", line 6, in <module> 
    for category in twitter_samples.categories() 
    File "C:\Users\neptun\AppData\Local\Programs\Python\Python36-32\lib\site-packages\nltk\corpus\util.py", line 119, in __getattr__ 
    return getattr(self, attr) 
AttributeError: 'TwitterCorpusReader' object has no attribute 'categories' 

私は彼らにして私のリストを持っているために、使用可能な属性を与える方法がわかりません正と負の感情。

答えて

2

あなたがtwitter_samples.fileids()を調べる場合は、別の正と負のファイルがあることがわかります。

>>> twitter_samples.fileids() 
['negative_tweets.json', 'positive_tweets.json', 'tweets.20150430-223406.json'] 

だから、ツイートが正または負に分類取得するには、単に対応するファイルを選択します。 nltkが分類されたコーパスを扱うのは通常の方法ではありませんが、そこにはあなたがいます。

documents = ([(t, "pos") for t in twitter_samples.strings("positive_tweets.json")] + 
      [(t, "neg") for t in twitter_samples.strings("negative_tweets.json")]) 

これで、10000個のつぶやきのデータセットが得られます。 3番目のファイルには別の20000が含まれていますが、明らかに分類されていません。

+0

@alexisさんのお返事ありがとうございましたが、私の質問では間違いを犯しました。同様に、私は 'nltk.FreqDist(documents)'を使うことができます – Cavalier

0
categorized_tweets = ([(t, "pos") for t in twitter_samples.strings("positive_tweets.json")] + 
          [(t, "neg") for t in twitter_samples.strings("negative_tweets.json")]) 


smilies = [':-)', ':)', ';)', ':o)', ':]', ':3', ':c)', ':>', '=]', '8)', '=)', ':}', 
    ':^)', ':-D', ':D', '8-D', '8D', 'x-D', 'xD', 'X-D', 'XD', '=-D', '=D', 
    '=-3', '=3', ':-))', ":'-)", ":')", ':*', ':^*', '>:P', ':-P', ':P', 'X-P', 
    'x-p', 'xp', 'XP', ':-p', ':p', '=p', ':-b', ':b', '>:)', '>;)', '>:-)', 
    '<3', ':L', ':-/', '>:/', ':S', '>:[', ':@', ':-(', ':[', ':-||', '=L', ':<', 
    ':-[', ':-<', '=\\', '=/', '>:(', ':(', '>.<', ":'-(", ":'(", ':\\', ':-c', 
    ':c', ':{', '>:\\', ';(', '(', ')', 'via'] 

categorized_tweets_tokens = [] 
for tweet in categorized_tweets: 
    text = tweet[0] 
    for smiley in smilies: 
     text = re.sub(re.escape(smiley), '', text) 
    categorized_tweets_tokens.append((word_tokenize(text), tweet[1])) 
関連する問題