2017-01-10 3 views
0

私は、アクターと彼らが行動したムービーのグラフデータベースを作成したいと思います。俳優と映画のリストを取得するには、私はpywikibotパーサーを使用しようとしていますが、私はページのフィルム部分をほしいと思ったときに、完全なページを手に入れることができました。私はちょうどフィルムを取得することができますので、ページを解析する方法はありますか?ここで私はこれまで何をやったかです:ほとんどの映画がリンクされているので、特定のWikipediaのページセクションの入手方法は?

import pywikibot as pw 

site = pw.Site() 
page = pw.Page(site, actor_name) #will be put into loop to get multiple actors 
print page.text #returns full text of the page in format below 
print page.linkedPages #returns linked pages 

ひとつのアイデアは、俳優に関連するすべてのリンクされたページを返すようにしていましたさ。テキストデータを取得する形式は次のとおりです。

{{Infobox person 
| name   = 
| birth name = 
}} 

Summary 

==Early life== 

==Career== 

==Filmography== 

ページのフィルモグラフィ部分のみを取得するにはどうすればよいですか?

答えて

1

Wikipedia APIで行うことができます。例えば、William Allandためのフィルモグラフィーのセクションを取得するために、あなたはで名前「フィルモグラフィー」のセクションのインデックスを取得する必要があります応答から

https://en.wikipedia.org/w/api.php?action=parse&prop=sections&page=William Alland 

我々はそれがであることがわかります。

https://en.wikipedia.org/w/api.php?action=parse&prop=text&section=2&page=William Alland 

注:使用prop=wikitext代わりtextウィキ形式のコンテンツを取得するためにその後、我々は唯一のこのセクションにテキストを取得するためにそのインデックスを使用する必要があります。

関連する問題