2010-11-28 9 views
2

ウィキペディアの記事の紹介部分を抽出したい(テーブル、画像、その他の部分を含む他のものはすべて無視する)。私は記事のHTMLソースを見ましたが、この部分がラップされている特別なタグは表示されません。Wikipedia記事の紹介部分をPythonで抽出する

誰も私にこの簡単な解決策を教えてもらえますか?私はPythonスクリプトを書いています。

おかげ

+0

この操作では、HTMLではなくwikiマークアップを解析したいと思うかもしれません。 –

+0

詳細をお知らせください。私はwikiマークアップへのアクセスに慣れていませんか?私はそれをどのように入手すべきですか?ありがとう –

答えて

0

私はあなたが頻繁に、全ページを取って、すべてのテーブルを除去した後、<P>の最初のシーケンスを探すことにより、イントロテキストに取得することができると思います。 .. </p >マーカーの後のブロック。最後のビットはこの正規表現になります。

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/ 

.Sオプションを使用します。 match newlines ...

+0

正規表現は「解析する」ための良い方法ではありません。 –

+0

いいえ、ニーズが簡単な場合は便宜的な方法です。しかし、私の正規表現よりも役に立つHTMLライブラリの答えを提供したい場合は、先に進んでください。 –

+0

さて、美しいスープは何が問題なのですか?これは不完全でバグが詰まった独自のアドホックパーサーを実装するよりも便利です。 –

関連する問題