私はMediaWikiが新しく、今は少し問題があります。 私はいくつかのWikiページのタイトルを持っていますが、api.phpを使って上記のページのテキストを取得したいのですが、私がAPIで見つけたのはページのWikiコンテンツを取得する方法ですwikiマークアップ付き)。私はこのHTTPリクエストを使用しました...テキストコンテンツをMediaWikiページからAPI経由で取得
/api.php?action=query&prop=revisions&rvlimit=1&rvprop=content&format=xml&titles=test
しかし、私はWikiマークアップなしでテキストコンテンツのみが必要です。 これはMediaWiki APIで可能ですか?
対
https://wiki.eclipse.org/Tip_of_the_Day/Eclipse_Tips/Now_where_was_I?action=render
を、私は受け取る必要がありますJavaアプリケーションを、持っていますwikiページのテキストコンテンツ。私はAPIを使用し、wikisyntaxページを受け取ると非常に速く動作しますが、明確なテキストが必要です.HTMLページを要求してHTMLタグを取り除こうとしましたが、ゆっくりと動作するため、wiki API 。または多分あなたは今Javaのためのいくつかの良いwikisyntaxクリアテキストコンバータ、次にJavaで直接変換することができますか? –
wikipediaの言語に関する実際の問題は、それが完全なチューリングだということです。ページのコードを注意深く見ると、あらゆる種類のカスタム関数に気づくでしょう。それらの関数の定義も同様にフェッチされ、解釈されなければならず、さらに多くの機能に拡張される必要があります。そのため、完全なレンダリングされたテキストを含むhtml解析に戻りました。 –
MediaWikiのwikitextは、開発者がループ構築物に対する編集者の要求を勇敢に戦ってきたため、完全にチューリングしていません。しかし、MediaWikiからプレーンテキストを取得するには、HTMLを取得してそれを取り除く必要があります。その仕事のために私がPerlで作った 'html2txt.pl'ツールを使ってみたり、あなたの好きな言語に変換したりすることができます:https://gist.github.com/751910 – hippietrail