あなたはJsoup(http://jsoup.org/)を使用することができます。 私はScalaでこれを行いますが、それはJavaでは同じです(これはもともとJava用です)。
String connection = Jsoup.connect(url)
.followRedirects(false) // otherwise you'll get into a loop
.timeout(3000) // also loop
.userAgent("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36") // just copied from Google
.referrer("http://www.google.com")
.get()
これはちょうどhtmlページを取得するためのもので、次の変数で簡単に解析できます。 また、url - >(if(url.startsWith( "http://")|| urlの横に追加しました。startsWith( "https://で)他のURLは "http://" + URL) いますが、すべてのURLが別の変数を作成し、有効な
ている知っていればあなたがする必要はありません。
String url = connection
.getElementsByAttributeValueContaining("href", "facebook.com")
.iterator()
.toList
.map(x => x.attr("href"))
をたとえば、あなたはhtmlページで探している他のURLを使うことができます(2番目のパラメータは正規表現です。には正規表現が含まれています) イテレータを実行すると、あなたの正規表現に一致するものが検索され、あなたが求めるフィールドを持って来るでしょう、ここで私はhrefを求めましたが、他のフィールドを求めることができます
か、また、この1つはあなたが特定の試合(第2 paramはここにも正規表現であるを探しているなら、それは一致正確あなたが書いた正規表現何かを見つけるでしょうです
String url = connection
.getElementsByAttributeValueMatching("type", "rss|atom")
.iterator()
.toList
.map(x => x.attr("href"))
を使用することができます)、イテレータを実行すると、正規表現に一致するすべてのフィールドが検索され、必要なフィールドが表示されます。ここでhrefを求めますが、他のフィールドを尋ねることができます。
[正規表現でHTMLを解析しないでください](http://stackoverflow.com/questions)/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454) – Biffen
他の方法は何ですか? – User3091
HTMLパーサーを使用します。 Javaを含むほとんどの言語にはたくさんのものがあります。 – Biffen