私は基本的に、ニュースサイトから元のヘッドラインを取り、PHPを使って追加のサイトに貼り付けてから、そのデータを持っている小さなプロジェクトをやっています新しいサイトに実際に表示されるのは、元のサイトへのクリック可能なリンクです。それがちょっと混乱している場合は、例を示してみましょう。右がクリック可能なリンク付きウェブスクラップPHP
http://www.wilsonschlamme.com/test.php 、私は> <スパン=クラスに含まれるantrimreview(ローカルミシガンニュースサイト)からすべてのデータをこすりするためにPHPを使用しています。 スパンクラスを選択しました。なぜなら、ヘッドラインの位置がわかっているからです。私はテスト目的のためにantrimを使用していますが、私はそれらと提携していません。
*私が疑問に思うのは、どのようにするかわからないのは、実際にテストサイトにクリック可能なリンクとして表示されているこれらの見出しを作ることです。言い換えれば、完全な記事へのクリック可能なリンクを含むこれらの見出しの<をhref>にしてください。別の言い方をすれば、antrimのウェブサイトには、その見出しがクリック可能なフルページへのリンクです。私のテストウェブサイトに現在ミラーリングされているときは、データを取得するものがないので、明らかにリンクはありません。
これはどのように行うことができますか?または任意の考え?これは本当に感謝しています。これは楽しいプロジェクトであり、完成の仕方に関する知識が不足しています。
ああ、私はポケモンの参考文献が下のlolsyであることを知っています。私はどこかのチュートリアルから、元々のコードで働いているので、それは大爆笑だ:
<?php
$html = file_get_contents('http://www.antrimreview.net/'); //get the html
returned from the following url
$pokemon_doc = new DOMDocument();
libxml_use_internal_errors(TRUE); //disable libxml errors
if(!empty($html)){ //if any html is actually returned
$pokemon_doc->loadHTML($html);
libxml_clear_errors(); //remove errors for yucky html
$pokemon_xpath = new DOMXPath($pokemon_doc);
//get all the h2's with an id
$pokemon_row = $pokemon_xpath->query('//span[@class]');
if($pokemon_row->length > 0){
foreach($pokemon_row as $row){
echo $row->nodeValue . "<br/>";
}
}
}
?>
http://stackoverflow.com/questions/4423272/how-to-extract-links-and-titles-from-a-html-page – Woodrow
[のリンクとタイトルを抽出する方法。 htmlページ?](http://stackoverflow.com/questions/4423272/how-to-extract-links-and-titles-from-a-html-page) – Woodrow
これらの応答に感謝します。その答えで指定したコードを試しましたが、うまく動作しません。 <?php(彼らが回答として提示したコード)にすることはできますか?> – Masteryogurt