ウィキペディアの記事の紹介部分を抽出したい(テーブル、画像、その他の部分を含む他のものはすべて無視する)。私は記事のHTMLソースを見ましたが、この部分がラップされている特別なタグは表示されません。Wikipedia記事の紹介部分をPythonで抽出する
誰も私にこの簡単な解決策を教えてもらえますか?私はPythonスクリプトを書いています。
おかげ
ウィキペディアの記事の紹介部分を抽出したい(テーブル、画像、その他の部分を含む他のものはすべて無視する)。私は記事のHTMLソースを見ましたが、この部分がラップされている特別なタグは表示されません。Wikipedia記事の紹介部分をPythonで抽出する
誰も私にこの簡単な解決策を教えてもらえますか?私はPythonスクリプトを書いています。
おかげ
私はあなたが頻繁に、全ページを取って、すべてのテーブルを除去した後、<P>の最初のシーケンスを探すことにより、イントロテキストに取得することができると思います。 .. </p >マーカーの後のブロック。最後のビットはこの正規表現になります。
/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/
.Sオプションを使用します。 match newlines ...
正規表現は「解析する」ための良い方法ではありません。 –
いいえ、ニーズが簡単な場合は便宜的な方法です。しかし、私の正規表現よりも役に立つHTMLライブラリの答えを提供したい場合は、先に進んでください。 –
さて、美しいスープは何が問題なのですか?これは不完全でバグが詰まった独自のアドホックパーサーを実装するよりも便利です。 –
ああ、通過こするwikidump
この操作では、HTMLではなくwikiマークアップを解析したいと思うかもしれません。 –
詳細をお知らせください。私はwikiマークアップへのアクセスに慣れていませんか?私はそれをどのように入手すべきですか?ありがとう –