タイトルの言うとおりです。WebページからhtmlをJavaの文字列に正しくロードする最も簡単な方法
大変助かりました!
BufferedReader bufferedReader = new BufferedReader(
new InputStreamReader(
new URL(urlToSeach)
.openConnection()
.getInputStream()));
StringBuilder sb = new StringBuilder();
String line = null;
while((line = bufferedReader.readLine()) != null) {
sb.append(line) ;
sb.append("\n");
}
.... in finally....
buffer.close();
それはほとんどの時間の作品:
これは本当に古い質問ですが、http://stackoverflow.com/questions/7615014/encoding-issues-crawling-i18n-websitesをチェックできれば、本当に感謝しています。 – dimo414
デフォルトのエンコードを「UTF-8」(http://trends.builtwith.com/encoding)に変更してください。人々はあなたの(非常に良い)答えから学んでいます! –
@TalWeiss人気は問題ではありません。 ISO-8859-1は[指定されたデフォルトです。](http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.7.1)です。 "明示的なcharsetパラメータが送信者によって提供されていない場合、 'text'タイプのメディアサブタイプは、HTTP経由で受信したときにデフォルトのcharset値 'ISO-8859-1' 8859-1 'またはその部分集合は適切な文字セット値でラベル付けされなければならない(MUST)。 – erickson