0
私はウェブサイトに接続し、ソースコードを入手し、ノードを使用して<body>
タグを探すプログラムを作成しようとしています。そのタグには、値を入力してウェブサイトに戻す3つの「テキストフィールド」があります。ノードを使用してウェブサイトに接続する
私は今まで<body>
というタグを見つけていましたが、今は実際にはわかりません。あなたが実際に
docx.getElementsByTagName("tagname")
を使用して直接これらのタグを取得することができます
try
{
Tidy tidy = new Tidy();
ByteArrayOutputStream baos = new ByteArrayOutputStream();
Document docx = tidy.parseDOM(new URL("http://www.clubvip.co.za/Login.aspx").openStream(), baos);
Node n = docx.getFirstChild();
System.out.println(n.getNodeName());
n = n.getFirstChild();
System.out.println(n.getNodeName());
while (n != null)
{
while (n != null) {
if (n.getNodeName() != "body") {
n = n.getNextSibling();
System.out.println(n.getNodeName());
JSoupの使用を検討しましたか?これは、このようなWebスクレイピングのために設計されており、imhoはDOM(さらに重要なことに、あらゆる種類の厄介なHTMLを処理する)というより良いインターフェースを提供します。 –
ありがとう、今夜JSoupを試してみましょう。 :) – Foxticity