2011-07-12 5 views
0

私はウェブサイトに接続し、ソースコードを入手し、ノードを使用して<body>タグを探すプログラムを作成しようとしています。そのタグには、値を入力してウェブサイトに戻す3つの「テキストフィールド」があります。ノードを使用してウェブサイトに接続する

私は今まで<body>というタグを見つけていましたが、今は実際にはわかりません。あなたが実際に

docx.getElementsByTagName("tagname") 

を使用して直接これらのタグを取得することができます

try 
{ 
    Tidy tidy = new Tidy(); 
    ByteArrayOutputStream baos = new ByteArrayOutputStream(); 
    Document docx = tidy.parseDOM(new URL("http://www.clubvip.co.za/Login.aspx").openStream(), baos); 
    Node n = docx.getFirstChild(); 
    System.out.println(n.getNodeName()); 
    n = n.getFirstChild(); 

    System.out.println(n.getNodeName()); 
    while (n != null) 
    {      
    while (n != null) { 
    if (n.getNodeName() != "body") {       
     n = n.getNextSibling();       
     System.out.println(n.getNodeName()); 
+1

JSoupの使用を検討しましたか?これは、このようなWebスクレイピングのために設計されており、imhoはDOM(さらに重要なことに、あらゆる種類の厄介なHTMLを処理する)というより良いインターフェースを提供します。 –

+0

ありがとう、今夜JSoupを試してみましょう。 :) – Foxticity

答えて

0

これは、あなたが繰り返し処理できるのNodeListを返しますhere

マニュアルを参照してください。