JSOUPからエスケープされたテキストを削除しました。解析されたHTML

いくつかの要素を含むJSOUPを使用してHTMLを解析しています。しかし、私は結果のdoc.htmlを（印刷）、代わりに：JSOUPからエスケープされたテキストを削除しました。解析されたHTML

<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script>

私は取得しています：

：コードで

<script language="JavaScript"> &lt;a href=&quot;http://www.company.com/index.htm&quot; &lt;/a&gt; </script>

を、私は次のような操作を行います

for (final Element src : doc.select("script")) { 
data = data.replace(someText,newText); 
src.text(data); <==== I could find this method escapes the text }

私はUTF-8文字セットを使用しています。

エスケープされていないテキストを直接取得するにはどうすればよいですか？ありがとうございます！

出典

2012-04-23 simplysiby

HTMLソースを管理していますか？ –

を.html()メソッドを使用して... 我々は使用して問題を解決しました：

src.childNode(0).attr("data", data);

出典

2012-04-24 13:03:21 simplysiby

ちょっと代わりにすべてのあなたの助けに感謝を

src.html(data)

出典

2012-04-23 18:06:34

ねえ、ありがとう..私はこれを試しました...しかし、私は同じ出力を得ています... – simplysiby

私は同じ問題に遭遇しました。 Apache CommonsのStringEscapeUtilsがこのトリックを行うようです。

String html = StringEscapeUtils.unescapeHtml4(document.html());

IMOこれは私にとっては最適な解決策ではありません。

出典

2012-05-15 11:43:12 keyboardsurfer

JSOUPからエスケープされたテキストを削除しました。解析されたHTML

答えて

関連する問題