複数のウェブサイトからすべてのリンクをキャッチする必要があります。そのために、私はhtmlファイル全体を集めました。それらをすべて配列に入れる正規表現が必要です。HTML文字列からすべての相対リンクと絶対リンクを取得する正規表現
イメージファイルやその他のコードファイルを収集したくありません。ページ自体からのHTMLだけ。
/https://www.hello.com
/https://www.hello.com/index.php
/https://www.hello.com/world
/https://www.hello.com/world.php
/https://www.hello.com/world.html
/https://hello.com
/https://hello.com/world
/http://www.hello.com
/http://www.hello.com/world
/http://hello.com
/http://hello.com/world
/www.hello.com
/www.hello.com/world
/hello.com
/hello.com/world
/hello
/hello/world
ではなく、次のように:私はこのために必要となる、正規どのような表現
hello
hello/world
hello.png
hello.zip
/hello/world.png
/hello/world.js
を
私はそれがこのようなすべてのリンクを収集したいですか?それとも良い方法がありますか? (たぶん、集めて)
なぜdownvoteですか?正当な質問のように見える – Lissy
"良い方法はありますか?":まあ、正規表現はこれをHTML言語の性質によって完全に堅牢にすることはできません。しかし、HTML/XMLパーサを使用する方法もありますが、これは簡単な作業では大したことではありません。だから私は正規表現に行くだろう。 – leemes