0
こんにちは、私は単純なURL & Javaのhtmlファイルからタイトル抽出を探しています。私はbookmarks.html(IE、Firefox)などを解析し、タイトル&のURLをdbに追加しようとしています。私はjava(サードパーティのライブラリは許可されていません)でこれを行う必要がありますので、私はsax/dom/regexを使う必要があります。HTMLファイルのURLとタイトルを抽出できる単純なJavaプログラムがありますか?
HTMLファイルは整形式のXMLですか?そうでない場合は、JAXPパーサーを使用して解析することはできません。 Tag Soup(http://home.ccil.org/~cowan/XML/tagsoup/)のような第三者のパッケージを使用することを強いられます。 –
私は彼らがブラウザの書き出しから生成されているので、フォーマットがうまくいっていると思います。私は弾丸を噛んで、SAXルートを書こうとしています(私のターゲットプラットフォームは物理的にもメモリー的にも足りないので)モバイルデバイス用だと思いました。 –