は私がphpを使ってウェブサイトから特定のタイプのリンクを抽出するには?
http://www.example.com/pages/12345667/some-texts-available-here
私は上記の形式のようにすべてのリンクを抽出したい。..
リンクは次のようなものでPHPを使用してWebページからのリンクの特定のタイプを抽出しようとしています。
maindomain.com/pages/somenumbers/sometexts
これまでのところ私は、Webページからのすべてのリンクを抽出することができますが、上記のフィルタが起きていません。どのように私はこれを達成することができますか?
提案がありますか?
<?php
$html = file_get_contents('http://www.example.com');
//Create a new DOM document
$dom = new DOMDocument;
@$dom->loadHTML($html);
$links = $dom->getElementsByTagName('a');
//Iterate over the extracted links and display their URLs
foreach ($links as $link){
//Extract and show the "href" attribute.
echo $link->nodeValue;
echo $link->getAttribute('href'), '<br>';
}
?>
正規表現は、HTMLの良い友人ではないですが、私はそれがリンクの場合は仕事ができると思いますページの「領域」にあります。その部分をstrpos()で切り取り、strip_tags()を使って正規表現に問題を引き起こす可能性のあるタグを削除することができます。サンプルデータはありますか? – Andreas
待って..あなたは正規表現が必要ですか? – Andreas
** [this](https://regex101.com/r/zG7pS3/1)** – rock321987