SAXパーサーを使用して通常のhtmlファイルを解析しようとしています。SAXパーサーでhtmlを解析する
SAXBuilder builder2 = new SAXBuilder();
try {
Document sdoc = (Document)builder2.build(readFile);
NodeList nl=sdoc.getElementsByTagName("body");
System.out.println("nodelist>>>>>>>>>>>"+nl.getLength());
} catch (JDOMException e1) {
e1.printStackTrace();
}
しかし、私はこの例外を取得していますなぜ
Open quote is expected for attribute "{1}" associated with an element type "class".
は誰も私を教えてくださいすることができ、例外を取得していますが、HTML形式の文書はよく形成され、それが適切にすべての開始タグと終了タグを持っています。
ありがとうございます。
SAXでこれを行う理由は何ですか? – flash
いいえ、htmlファイルから本文の内容を取得したいだけですので、私はそれを使用しました。他の解決策はありますか? – user972590
SAXを使用すると、XHTMLを解析できますが、HTMLを解析できるかどうかはわかりません(少なくともほとんどのXMLパーサーではそうではありません)。 HTMLは整形式のXMLである必要はありません。 –