2011-07-05 10 views
0

実際のAPIを使用してウィキペディアの記事の内容を取得したいと考えています。今、私はaction=renderaction=rawについて完全によく知っていますが、私はプレーンテキストで可能な限り多くのベアボーンのバージョンを望んでいます。書式設定なし、リンクなし、テンプレートなし、引用なし、TOCなし。一例を与えるために、ここでのSOページからの抜粋です:ウィキペディアの記事を取得する

<p><b>Stack Overflow</b> is a <a href="http://en.wikipedia.org/wiki/Website" title="Website">website</a>, part of the <a href="http://en.wikipedia.org/wiki/Stack_Exchange_Network" title="Stack Exchange Network">Stack Exchange Network</a>,<sup id="cite_ref-blog_legal_1-0" class="reference"><a href="#cite_note-blog_legal-1"><span>[</span>2<span>]</span></a></sup><sup id="cite_ref-stackapps_legal_2-0" class="reference"><a href="#cite_note-stackapps_legal-2"><span>[</span>3<span>]</span></a></sup> featuring questions and answers on a wide range of topics in <a href="http://en.wikipedia.org/wiki/Computer_programming" title="Computer programming">computer programming</a>.<sup id="cite_ref-secrets_3-0" class="reference"><a href="#cite_note-secrets-3"><span>[</span>4<span>]</span></a></sup><sup id="cite_ref-slashdot_4-0" class="reference"><a href="#cite_note-slashdot-4"><span>[</span>5<span>]</span></a></sup><sup id="cite_ref-google-tech-talks_5-0" class="reference"><a href="#cite_note-google-tech-talks-5"><span>[</span>6<span>]</span></a></sup></p> 

これも、すべてのテンプレートやものの後です。私はそれらを完全に切り取って、実際の記事がどこから始まるのかを見つけたいと思います。そして、私のようなものに、さらにこれをダウン剃るする必要があります。

スタックオーバーフローは、コンピュータプログラミングのトピックの広い範囲 上 質問と回答を搭載し、ウェブサイト、 スタック交流ネットワークの一部です。

テンプレートとwikiの書式設定を切り離して、生の記事の内容を自分で取得するにはどうすればよいですか?これはPHPで実装されます。

+0

恐らくそれはドキュメントに書かれています:http://en.wikipedia.org/w/api.php – hakre

+0

@hakre私はそれを逃していない限り、それのように見えませんか? – Cyclone

答えて

1

wikipediamediawiki apiには、探しているものがすべてあります。例の場合はSO wiki api pageです。

私はAPIを使ってプレーンテキストを直接取得することはできません。あなたが探しているものはset of parsersから選択する必要があります。

希望すると便利です。

+0

それらのどれも、私が探しているものを本当にやっているようには見えません。/ – Cyclone

+0

あなたは常にカットを取って準備した解決策を試すわけではありません。どこから始めてそこから作業する必要があります。 – Sukumar

+0

しかし、それらのどれもAPI自体より優れているわけではありません。これは私の目標からかなり離れています。 – Cyclone

関連する問題