Wikipedia記事の紹介部分をPythonで抽出する

ウィキペディアの記事の紹介部分を抽出したい（テーブル、画像、その他の部分を含む他のものはすべて無視する）。私は記事のHTMLソースを見ましたが、この部分がラップされている特別なタグは表示されません。Wikipedia記事の紹介部分をPythonで抽出する

誰も私にこの簡単な解決策を教えてもらえますか？私はPythonスクリプトを書いています。

おかげ

2010-11-28 green-i

この操作では、HTMLではなくwikiマークアップを解析したいと思うかもしれません。 –

詳細をお知らせください。私はwikiマークアップへのアクセスに慣れていませんか？私はそれをどのように入手すべきですか？ありがとう –

私はあなたが頻繁に、全ページを取って、すべてのテーブルを除去した後、<P>の最初のシーケンスを探すことにより、イントロテキストに取得することができると思います。 .. </p >マーカーの後のブロック。最後のビットはこの正規表現になります。

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

.Sオプションを使用します。 match newlines ...

2010-11-28 03:04:40

正規表現は「解析する」ための良い方法ではありません。 –

いいえ、ニーズが簡単な場合は便宜的な方法です。しかし、私の正規表現よりも役に立つHTMLライブラリの答えを提供したい場合は、先に進んでください。 –

さて、美しいスープは何が問題なのですか？これは不完全でバグが詰まった独自のアドホックパーサーを実装するよりも便利です。 –

ああ、通過こするwikidump

libのHTML画面を使用し、またWikipediaのソース

を解析するmwlibをチェックすることもできますこのトピックに関するご意見は既にあります：

2010-11-28 02:48:54 pyfunc

答えて