2012-01-09 20 views
2

私は2312文字セットのページを解析するJSoupを使用しています: http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.htmljsoup出力エンコーディングの問題

ソースコード:私がしたい

1:? 2:� 3:� 4:— 

String testURL="http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html"; 
Document doc=Jsoup.connect(testURL).get();   
System.out.println(
    doc.select("div").html() 
); 

これは、次のような出力を提供しますページソースコードと同じになる:

1:· 2:慒 3:啰 4:— 

これを行うにはどのような方法がありますか?

答えて

1

doc.outputSettings().escapeMode(EscapeMode.xhtml)を設定するか、印刷する前に出力charsetを変更してみてください。

も参照してください。

+0

私は他の文字セット、 'EscapeMode.xhtml'と' prettyPrint(false) 'を試していますが、出力は同じです – Koerr

+0

@Zenofo:bummer =これは他の回答の質を向上させる可能性があります。 – maerics

+0

@maerics、ありがとうございました:) – Koerr