0
私はオープンソースのWebスクレイピングツールであるweb harvest(http://web-harvest.sourceforge.net/)を使用しています。Web Harvestに特殊文字を含む正規表現を作成する
私が使用しようとしている正規表現には、 "<"、 ">"文字が含まれています(これは、すべてのHTMLタグを取り除こうとしているためです)。これは、要素の内容が正しい形式の文字データまたはマークアップで構成されなければならないため、問題を引き起こします。
私は何とか正規表現をエスケープする必要がありますが、どのように把握することはできません。
アイデア?
HTML解析は解決された問題です。実際に正規表現を使用してソリューションを再開発する必要があると考えてください。必須SOリンク:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – jasso