2016-11-18 1 views
-3
<strong>Description</strong>         This is some test description 1<strong>Areas</strong> 

が必要なものを得るために、正規表現で、このHTMLを解析することができます)どのように私は私が(強い)説明(/強い)(強力な)何か(これは変動し、常にではない分野)(/強い間のテキストを取得したい

私はこの正規表現 'の説明(。+)'を試していますが、結果はありません。

私はPythonの正規表現ライブラリを使用しています*それは非常に単純ではなく、正確に何かがいた場合

+0

完全なHTMLコードを投稿してください。 –

答えて

0

それは、not recommended to parse HTML using regex

だ「これはいくつかのテストの記述にある1」

取得する権利式をどのようになりますか解析することはできますが、HTML/XMLパーサーを使用することをお勧めします。 代わりにPython HTML parser、または BeautifulSoupのようなライブラリを使用できます。

タグ間でデータを抽出したい場合は、もっと明確にする必要があります。 あなたが望むものがいつでもタグとの間にテキストを入れることであるかどうかはわかりません。あなたが説明開口部と、あなたが正規表現を使用すると言うことができます閉じて、他のテキストのためのより具体的な何かをしたい場合は

import re 
matches = re.search(r'</strong>(.+)<strong>', '<strong>Description</strong>         This is some test description 1<strong>Areas</strong>') 
matches.group(1) # '         This is some test description 1' 

<strong>Description<\/strong>(.+)<strong>(.+)<\/strong> 

しかし、再び私はだろうもしそうなら、あなたのような何かを行うことができるはずいくつかの実際のHTML/XMLパーサを見てみましょう。

+0

私はそれを使用していますが、この特定のビットのために私は正規表現が必要です。残りの人には問題はありませんでしたが、問題はあります。それはスーパーの構造化されていないページの全体のセットと私は正規表現が有用であることを発見しているこの特定のもののために。 –

+0

それはあなたのために働く場合、確認、私の答えを確認してください。 – danielfranca

関連する問題