Jsoupは、改行が含まれている場合、DocTypeの追加情報を取得します

Jsoupを使用してダウンロードしたファイルを印刷したいとき、改行がある場合はDocTypeの情報がありません。これは意図されているのか、これはバグですか？例えばJsoupは、改行が含まれている場合、DocTypeの追加情報を取得します

：

DOCTYPEは、以下のようになります。

<!DOCTYPE html 
     PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" 
     "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

そして、私は（doc.htmlを使用してそれを印刷する場合）またはdoc.toString（）私が手：

<!DOCTYPE html>

もしそこに折れ線がないなら、私はすべての情報を含む完全なDocTypeを手に入れます。

私はそれを解決するために何ができますか？

乾杯ベーネ

出典

2011-07-30 Bene

私の問題は、パーサーをバイパスすることによって解決することができます。

org.jsoup.Connection con =Jsoup.connect(url).userAgent(USER_AGENT).timeout(MAX_TIMEOUT).followRedirects(true); 
Response resp = con.execute().method(Method.GET); 
completeFile = resp.body(); 
doc = resp.parse();

は今、あなたは変数にフィルタリングされていない/未解析のコード「completeFile」を持って、きちんと文書に1を解析されました"doc"

私はこれが誰かの助けになることを望みます。

乾杯ベネ

出典

2011-07-31 11:13:11 Bene

はい、これはバグです。それを指摘してくれてありがとう。 tokeniserは、doctype名と公開識別子の間の空白を正しく無視していませんでした。

私はfixed the bugでした。jsoup 1.6.2で利用可能です。

出典

2011-08-28 06:42:33

Jsoupは、改行が含まれている場合、DocTypeの追加情報を取得します

答えて

関連する問題