私はいくつかのPerlモジュールを使ってHTML文書を解析しています:HTML::TreeBuilderとHTML::Elementです。 「HTML :: Element出力にこのA0文字が表示されるのはなぜですか?
alt text http://www.freeimagehosting.net/uploads/2acca201ab.jpg
私ができる:それは奇妙な文字としてHTML ::要素によって返されると予想されるタグの内容がちょうど
あるたびに、いくつかの理由で、私の場合は、前に見たことがありません私は正規表現で検索すると、それを見つけることができませんでした。返された文書をANSIまたはUTF-8に変換すると、その文書は完全に消えます。私はHTML :: Elementドキュメントの中でそれに関する情報を見つけることもできませんでした。
この文字を検出してより有用な何か(例えばnull
)と置き換えることができますか、これからどうすればこのような奇妙な文字を扱うべきですか?
画像リンクは腐っています –