2017-09-30 14 views
0

Redditでトップ100の記事をダウンロードしています。それにもかかわらず、多くは外部リンク、jpgファイル、または他のタイプの非テキストコンテンツです。したがって、私は主に空の単位で構成されるリストを取得します。私はselftextを含むエントリだけを取得する方法があるのだろうかと思っていました。ここに私のコードは次のとおりです。 輸入パンダselftext reddit prawでエントリを取得中

appended_data = [] 

subreddit = reddit.subreddit('bitcoin') 

top_python = subreddit.hot(limit=100) entries 

for submission in top_python: 
    if not submission.stickied: 

     appended_data.append(submission.selftext) 



str_list = list(filter(None, appended_data)) 

答えて

2

輸入JSON 輸入NLTK インポート何かがテキストポストであるかないかをチェックするためのフラグに建てられ、is_selfがあります。更新されたコードは次のようになります:

import json 
import nltk 
import re 
import pandas 

appended_data = [] 

subreddit = reddit.subreddit('bitcoin') 

top_python = subreddit.hot(limit=100) entries 

for submission in top_python: 
    if not submission.stickied and submission.is_self: 

     appended_data.append(submission.selftext) 



str_list = list(filter(None, appended_data)) 

ご質問がありましたら、お気軽にコメントを投稿してください!

関連する問題