2012-05-04 8 views
0

私が望むプログラムを作ろうとしています。私が任意のURLをヒットしたり、ウェブサイトを言うことができたら、そのウェブサイトのすべてのコンテンツが私に読まれています。私はこれにURLクラスを使用しています。ここでURLにヒットしたときのレスポンスの処理

私のコード..です

import java.net.*; 
import java.io.*; 
public class URLConnectionReader 
{ 
public static void main(String[] args) throws Exception 
{ 
    URL oracle = new URL("http://www.oracle.com/index.html"); 
    URLConnection yc = oracle.openConnection(); 

    BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream())); 
    String inputLine; 
    while ((inputLine = in.readLine()) != null) 

    System.out.println(inputLine); 

    in.close(); 
} 
} 

しかし、これに応答して、それは、ビューページのソースの内容を示している、私は、ウェブページの内容ではなく、すべてをしたいです。これどうやってするの?

答えて

1

は、その後、あなたがHTMLパーサーを使用して受け取っているHTML(jsoupのような)

0

ウェブページの内容==ページのソースを解析します。ブラウザはhtmlを分析し、それを人間の目のために視覚化する。

String text = Jsoup.parse(html).body().text(); 

をしかし、あなたはつもりもコンテンツ必要はありませんあなたが望んでいたいくつかのコマーシャル、メニューや他のテキストを取得する:あなたが唯一の本文をしたい場合 あなたはjsoup使用することができます。

関連する問題