私は情報のためにページをクロールすることに取り組んでおり、Groovyのページの解析に多くの問題があります。私はjuniversal chardetを使用して、ほとんどの時間を動作し、ちょうど頭の中でタグのページをスキャンした半ソリューションを作ったが、時々これらのタグの2は、1つのページに発見され、例えば:ページ上に2つの文字セットタグがありますか?
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
...
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
ですそこに使用する(最初、最後、両方..?)か、これを行う簡単な方法の標準がありますか?ありがとう。