私は正規表現を使用してPHPでhtmlスクラップを行ってきました。これは動作しますが、結果は厄介で壊れやすくなります。より堅牢なソリューションを提供するパッケージを使用した人はいますか?構成主導型のソリューションが理想的ですが、私は気にしません。PHPでのスクラップ
答えて
このページからHTMLを削った後は、PHP Simple HTML DOM Parserをお勧めします。それは無効なHTMLをサポートし、HTML要素を扱う非常に簡単な方法を提供します。あなたはスクレーピングしているページが有効なX(HT)MLであれば
String Parsingの代わりに[DOM](http://php.net/manual/en/book.dom.php)を実際に使用する[SimpleHtmlDom](http://simplehtmldom.sourceforge.net/)の第三者代替案を提案しました。 :[phpQuery](http://code.google.com/p/phpquery/)、[Zend_Dom](http://framework.zend.com/manual/en/zend.dom.html)、[QueryPath]( http://querypath.org/)と[FluentDom](http://www.fluentdom.org)を参照してください。 – Gordon
あなたは私に与えられたページのリンクをクリックする例を教えてもらえますか? –
、その後、PHP's built-in XML parsersのいずれかが行います。
私はスクレイピングのためにPHPライブラリで多くの成功を収めていません。あなたが冒険しているなら、simplehtmldomを試すことができます。 Rubyの場合はHpricot、Pythonの場合はBeautiful Soupをお勧めします。どちらも優れたパーサーです。
特に醜いHTMLを解析する場合は、BeautifulSoup 3.1.x(3.0.xを使用)を使用しないでください。 3.1.xはhtmllibをパーサーとして使用しています。これは、3.0.xのsgmllibの使用よりもはるかに寛容です。 – Tom
私は上記のSimple Html DOM Parserで結果が非常に良好でした。そして、tidy Extension for PHPもあります。これも本当にうまくいきます。
は、私は、cURLの+の正規表現やcURLの+いくつかのDOMパーサをお勧めします。あなたがregexpの深い味を持っているなら、実際にはもっと正確です。
「シンプルHTML DOMパーサー」もお勧めします。特に、jQueryやJavaScriptのセレクタに精通していれば、自宅にいると良い選択肢です。
私は私のホスト1and1でカールを使用する必要がありました。
http://www.quickscrape.com/私はSimple DOMクラスを使用しています!
- 1. instagram PHPスクラップ(エラー)
- 2. アマゾンウェブサイトをスクラップするためのPHPスクリプト
- 3. 高速スクラップPHP再帰的スクレーパー
- 4. PHPはhtmlページをスクラップします
- 5. ページをスクラップするページの先頭にPHPで書かれた
- 6. jpでスクラップhtml
- 7. PHPで特殊文字をスクラップ(抽出)する方法Dom code
- 8. Php Smarty:YouTube動画をキーワードでスクラップ&埋め込む方法は?
- 9. デコードされた情報をPHP&Curlでスクラップします
- 10. ポップアップウィンドウでのセレンデータのスクラップ
- 11. スクラップでアイテムをスクラップできない、xpathが機能しない
- 12. データのスクラップ(
- 13. スクラップで検索フォームをスクラップする方法
- 14. VBAのスクラップ・ディグ・クラス
- 15. iframeデータのスクラップR
- 16. clinicalTrials.govのデータをスクラップ
- 17. Ajax Webページのスクラップ
- 18. スクラップのPython 3.4とBeautifulSoupとの記事では、私がウェブサイトをスクラップしたい
- 19. rvestでオンラインPDFをスクラップ
- 20. nokogiriで画面をスクラップ
- 21. CSS情報をbeautifulSoupでスクラップ
- 22. PHPを使用してWebページをスクラップする方法は?
- 23. スクラップPHPスクリプトを修正する必要があります
- 24. AppleScriptスクラップiOSシミュレータ
- 25. アングルリストデータをスクラップ
- 26. スクラップStreetEasyログインページ
- 27. Python:CSVへのリンクのスクラップ
- 28. Word VBAのウェブサイトのスクラップ
- 29. ウェブサイトの英語版のスクラップ
- 30. javascript/phpでYQLを使用して記事htmlをスクラップしますか?
[この](http://stackoverflow.com/questions/26947/how-to-implement-a-web-scraper-in-php#27109)スレッドを見てください - 質問は、同様の方向に入ります – crono