誰でも、なぜ次のコードで結果が得られないのでしょうか?
もちろん、htmlは有効で、多くの "div"要素を持っています。最も簡単な例 - javaを使ってsaxonとhtmlをパースする方法は?
Processor proc = new Processor(false);
proc.setConfigurationProperty("http://saxon.sf.net/feature/sourceParserClass", "org.ccil.cowan.tagsoup.Parser");
XPathCompiler xpath = proc.newXPathCompiler();
DocumentBuilder builder = proc.newDocumentBuilder();
XdmNode doc = builder.build(new File("/tmp/test.html"));
XPathSelector selector = xpath.compile("//div").load();
selector.setContextItem(doc);
for (XdmItem item : selector)
{
System.out.println(((XdmNode)item).getNodeName());
}
私はサクソンのサンプルからそのコードを取って、コメントを追加「proc.setConfigurationPropertyを...」htmlの入力を解析するために。
私が欲しいのは、次のとおりです。
1)のXPath v3を持つ一部のクエリ
はありがとうを作る)HTML文字列
2を提出した文書ノード
3)を取得します。
P.s.私はxsltを使いたくない。
HTMLパーサーをアプリケーション全体のグローバルオプションとして設定するのではなく、ビルダービルド(新しいSAXSource(新しいorg.ccil.cowan.tagsoup.Parser()、新しいInputSource /tmp/test.html ")))'。 –