2009-09-01 1 views
0

こんにちは、私は単純なURL & Javaのhtmlファイルからタイトル抽出を探しています。私はbookmarks.html(IE、Firefox)などを解析し、タイトル&のURLをdbに追加しようとしています。私はjava(サードパーティのライブラリは許可されていません)でこれを行う必要がありますので、私はsax/dom/regexを使う必要があります。HTMLファイルのURLとタイトルを抽出できる単純なJavaプログラムがありますか?

+0

HTMLファイルは整形式のXMLですか?そうでない場合は、JAXPパーサーを使用して解析することはできません。 Tag Soup(http://home.ccil.org/~cowan/XML/tagsoup/)のような第三者のパッケージを使用することを強いられます。 –

+0

私は彼らがブラウザの書き出しから生成されているので、フォーマットがうまくいっていると思います。私は弾丸を噛んで、SAXルートを書こうとしています(私のターゲットプラットフォームは物理的にもメモリー的にも足りないので)モバイルデバイス用だと思いました。 –

答えて

0

ファイルをDOMドキュメントにロードしてから、XPath式を使用してタグのすべてのインスタンスを見つけることができます。 HREF属性とタグの内容を抽出することは、あなたがしたいことをするはずです。 XPathはおそらく'//A'のような単純なものです。

関連する問題