私はPythonを学んでいます。練習としては、フィードパーザーを使ってrand scraperを構築して、パンダのデータフレームに出力し、NLTKで掘り下げようとしています...しかし、最初に複数のRSSフィードから記事のリストを取得しています。FeedParserからフィードを取得し、Pandas DataFrameにインポート
私はpass multiple feedsの方法についてこの投稿を使用し、それをPandas dataframeに取得する方法について別の質問に以前に回答しました。
問題点は、私のデータフレーム内のすべてのフィードからデータを見ることができるようにすることです。現在、私はフィードのリストの最初の項目にしかアクセスできません。
FeedParserは仕事をしているようだが、パンダスに入れるとリストの最初のRSSを取得するように見える。
import feedparser
import pandas as pd
rawrss = [
'http://newsrss.bbc.co.uk/rss/newsonline_uk_edition/front_page/rss.xml',
'https://www.yahoo.com/news/rss/',
'http://www.huffingtonpost.co.uk/feeds/index.xml',
'http://feeds.feedburner.com/TechCrunch/',
]
feeds = []
for url in rawrss:
feeds.append(feedparser.parse(url))
for feed in feeds:
for post in feed.entries:
print(post.title, post.link, post.summary)
df = pd.DataFrame(columns=['title', 'link', 'summary'])
for i, post in enumerate(feed.entries):
df.loc[i] = post.title, post.link, post.summary
df.shape
df
問題は、DataFrameの最後のフィードからのデータしか表示されていないことですか? DataFrame内のすべてのフィードのデータが必要ですか? – beenjaminnn
はい。申し訳ありませんが、私はこれを編集して明確化します。 –