2012-04-23 7 views
4

いくつかの要素を含むJSOUPを使用してHTMLを解析しています。しかし 、私は結果のdoc.htmlを(印刷)、代わりに:JSOUPからエスケープされたテキストを削除しました。解析されたHTML

<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script> 

私は取得しています:

:コードで

<script language="JavaScript"> &lt;a href=&quot;http://www.company.com/index.htm&quot; &lt;/a&gt; </script> 

を、私は次のような操作を行います

for (final Element src : doc.select("script")) { 
data = data.replace(someText,newText); 
src.text(data); <==== I could find this method escapes the text } 

私はUTF-8文字セットを使用しています。

エスケープされていないテキストを直接取得するにはどうすればよいですか? ありがとうございます!

+0

HTMLソースを管理していますか? –

答えて

4

.html()メソッドを使用して... 我々は使用して問題を解決しました:

src.childNode(0).attr("data", data); 
0

ちょっと代わりにすべてのあなたの助けに感謝を

src.html(data) 
+0

ねえ、ありがとう..私はこれを試しました...しかし、私は同じ出力を得ています... – simplysiby

0

私は同じ問題に遭遇しました。 Apache CommonsのStringEscapeUtilsがこのトリックを行うようです。

String html = StringEscapeUtils.unescapeHtml4(document.html()); 

IMOこれは私にとっては最適な解決策ではありません。

関連する問題