あなたがHTMLを取り除くために、いくつかの軽量な解析を行うことになるでしょう:
String extractText(String html) throws IOException {
final ArrayList<String> list = new ArrayList<String>();
ParserDelegator parserDelegator = new ParserDelegator();
ParserCallback parserCallback = new ParserCallback() {
public void handleText(final char[] data, final int pos) {
list.add(new String(data));
}
public void handleStartTag(Tag tag, MutableAttributeSet attribute, int pos) { }
public void handleEndTag(Tag t, final int pos) { }
public void handleSimpleTag(Tag t, MutableAttributeSet a, final int pos) { }
public void handleComment(final char[] data, final int pos) { }
public void handleError(final java.lang.String errMsg, final int pos) { }
};
parserDelegator.parse(new StringReader(html), parserCallback, true);
String text = "";
for(String s : list) {
text += " " + s;
}
return text;
}
私はcomplileエラーをworking..noないそのJsoup..butしようとした、その単に機能していない... – Maverick
同様のトピックhttp://stackoverflow.com/questions/1699313/how-to-remove-html -tag-in-java http://stackoverflow.com/questions/240546/removing-html-from-a-java-string –