2011-02-10 13 views
0

私はオープンソースのWebスクレイピングツールであるweb harvest(http://web-harvest.sourceforge.net/)を使用しています。Web Harvestに特殊文字を含む正規表現を作成する

私が使用しようとしている正規表現には、 "<"、 ">"文字が含まれています(これは、すべてのHTMLタグを取り除こうとしているためです)。これは、要素の内容が正しい形式の文字データまたはマークアップで構成されなければならないため、問題を引き起こします。

私は何とか正規表現をエスケープする必要がありますが、どのように把握することはできません。

アイデア?

+0

HTML解析は解決された問題です。実際に正規表現を使用してソリューションを再開発する必要があると考えてください。必須SOリンク:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – jasso

答えて

1

正規表現の整形式のXMLを作成します。 <&lt;および>に置き換えて、&gt;と交換してください。同様に正規表現に&がある場合は、それを&amp;に置き換える必要があります。

また、このタスクでは正規表現の代わりにHTMLパーサを使用することをお勧めします。

関連する問題