Q

PHPでのスクラップ

2008-08-29 12 views 32 likes

32

私は正規表現を使用してPHPでhtmlスクラップを行ってきました。これは動作しますが、結果は厄介で壊れやすくなります。より堅牢なソリューションを提供するパッケージを使用した人はいますか？構成主導型のソリューションが理想的ですが、私は気にしません。PHPでのスクラップ

2008-08-29 tsellon

+0

[この]（http://stackoverflow.com/questions/26947/how-to-implement-a-web-scraper-in-php#27109）スレッドを見てください - 質問は、同様の方向に入ります – crono

A

答えて

28

このページからHTMLを削った後は、PHP Simple HTML DOM Parserをお勧めします。それは無効なHTMLをサポートし、HTML要素を扱う非常に簡単な方法を提供します。あなたはスクレーピングしているページが有効なX（HT）MLであれば

2008-08-29 07:55:42 Espo

+8

String Parsingの代わりに[DOM]（http://php.net/manual/en/book.dom.php）を実際に使用する[SimpleHtmlDom]（http://simplehtmldom.sourceforge.net/）の第三者代替案を提案しました。：[phpQuery]（http://code.google.com/p/phpquery/）、[Zend_Dom]（http://framework.zend.com/manual/en/zend.dom.html）、[QueryPath]（ http://querypath.org/）と[FluentDom]（http://www.fluentdom.org）を参照してください。 – Gordon

+0

あなたは私に与えられたページのリンクをクリックする例を教えてもらえますか？ –

5

、その後、PHP's built-in XML parsersのいずれかが行います。

私はスクレイピングのためにPHPライブラリで多くの成功を収めていません。あなたが冒険しているなら、simplehtmldomを試すことができます。 Rubyの場合はHpricot、Pythonの場合はBeautiful Soupをお勧めします。どちらも優れたパーサーです。

2008-08-29 08:01:37

+0

特に醜いHTMLを解析する場合は、BeautifulSoup 3.1.x（3.0.xを使用）を使用しないでください。 3.1.xはhtmllibをパーサーとして使用しています。これは、3.0.xのsgmllibの使用よりもはるかに寛容です。 – Tom

2

私は上記のSimple Html DOM Parserで結果が非常に良好でした。そして、tidy Extension for PHPもあります。これも本当にうまくいきます。

2008-08-29 08:08:50

5

私はで動作するようにいくつかのそれほどハイエンドソリューションではありませんhtmlSQLで作業を楽しみ、が、本当に簡単でした。私は個人的にcURLの+の正規表現を使用してもHTMLスクレイピングのためのPHPを使用して

2008-08-29 09:40:59 BlaM

+0

最近のコメントですが、私はちょうどGoogleを介してあなたの答えを見つけました..私はそれが好きです！ :) – Ben

+0

今でもあなたのために働くのですか？それは私にとってはうまくいかないようです... – Dinesh

3

は、私は、cURLの+の正規表現やcURLの+いくつかのDOMパーサをお勧めします。あなたがregexpの深い味を持っているなら、実際にはもっと正確です。

2008-12-27 09:11:09

5

「シンプルHTML DOMパーサー」もお勧めします。特に、jQueryやJavaScriptのセレクタに精通していれば、自宅にいると良い選択肢です。

I have even blogged about it in the past.

2009-07-31 19:43:11

2

私は私のホスト1and1でカールを使用する必要がありました。

http://www.quickscrape.com/私はSimple DOMクラスを使用しています！

2010-12-02 06:51:57 Steve

関連する問題