ウェブページからテキストを読みたい。私はWebページのHTMLコードを取得したくありません。私はこのコードを見つけました:Javaを使ってWebページからテキストを読み取る方法は?
try {
// Create a URL for the desired page
URL url = new URL("http://www.uefa.com/uefa/aboutuefa/organisation/congress/news/newsid=1772321.html#uefa+moving+with+tide+history");
// Read all the text returned by the server
BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
String str;
while ((str = in.readLine()) != null) {
str = in.readLine().toString();
System.out.println(str);
// str is one line of text; readLine() strips the newline character(s)
}
in.close();
} catch (MalformedURLException e) {
} catch (IOException e) {
}
このコードは私にウェブページのHTMLコードを与えます。私はこのページの中にテキスト全体を入れたいです。 Javaでこれをどうすればできますか?
HTMLタグのテキストを解析するだけです。そこから、あなたが望む情報を見つけてそこから抽出することができます。 –
DOMへのHTMLを探しているならhttp://stackoverflow.com/questions/457684/reading-html-file-to-dom-tree-using-javaが助けになります。 –
FYI - 繰り返しごとにin.readLine()を呼び出すので、実際には奇数行ごとにスキップします。 (私はこのコードのバグを指摘しておかなければならないと思っていました。なぜなら、これはJavaを使ったウェブページの読み込みでのGoogle検索の最初の結果の1つです)。 – JPProgrammer