2012-03-09 33 views
1

私はjsoupを使用して、Webサイトからリンクを抽出します。私はいくつかのキーワードを含む特定のリンクのみを抽出したい。私はキーワード "ダウンロード"を含むリンクを取得したい。どうやってするの。私は、次のコード一部の文字列を含むドキュメントjsoupから他の文字列へのリンクを抽出します

Document doc = Jsoup.parse(new URL("http://www.examplesite.com)); 
Element link = doc.select("a").first(); 

答えて

3

は、セレクタの構文についてはhereを参照してくださいしています。

ノード内のテキストは:containsでテストできます。 Element link = doc.select("a:contains(Download)").first();。あなたがしたい場合は:matches正規表現に使用することができます。

attrの方法でリンク先アドレスを取得します。 String linkaddress = link.attr("href");。あなたはこの

elements with attributes that start with [attr^=value],end with [attr$=value],contain the value [attr*=value] e.g. [href*=/path/] 

を使用することができます

+0

を使うを含むリンクを取得しますか。?文書内の –

+0

は一致します(jsoupは2つのリンク、同じリンクを見つけます)、最初のものだけを取得して文字列に変換できますか?ありがとうございました –

0

あなたは、特定の単語も、私は文字列に変換したいと思い、この

org.jsoup.select.Elements links = doc.select("[href*=download]"); 
関連する問題