のXPath、簡単なHTMLのDOMや正規表現がスクレーピングWebページ

可能性の重複：特定の情報のためのウェブページをこするとき、あなたの意見では何
How to parse and process HTML with PHP?のXPath、簡単なHTMLのDOMや正規表現がスクレーピングWebページ

は/最善のアプローチを体験？

私は指定されたWebページから情報の特定のフィールドを自動的に破棄するシステム（PHP/JS/MySQL）を構築しています。このシステムでは、（半）手動でそのWebサイトの最初のページを擦った後、ロジックがdbに移動し、そのフォーマットの他のページをWebサイトで削り取る機能が必要です。

HTML DOM（タグ名+クラス+ ID）とXPathをすばやく見つけて保存し、いくつかのフィルタルールを追加できます（クリーンHTML、最初のタグで区切り、特定の単語を削除...）

私の質問（もう一度:)）は、ページを適切に掻き取るためにこのオートメーションで使用するのに最適な方法は何ですか？

例：

シンプルなHTMLのDOM：http://simplehtmldom.sourceforge.net/
のXPath：http://docs.jquery.com/DOM/Traversing/Selectors#XPath_Selectors
正規表現....

他の提案が

UPDATE歓迎されている：私は、XPathを使用しています、単純なHTML DOMと正規表現。特定のWebサイトをスクラップする際に、簡単なコンフィギュレータ（スクレイピングルールの設定に使用されるインターフェイス）を自動化して作成するために、Simple HTML DOMが最適です。残念ながら、XPathは90％のケースでは有用ではありません。単純HMTL DOMは大成功を収めたケースの少なくとも50％で働いています）

最近追加された正規表現のコンポーネントでは、彼らは非常によく働いています（場合は少なくとも80％）。

出典

2012-03-01 Victor Spinei

*ベスト*は建設的ではなく、議論を作成します。これはSO上では望ましくない。 – Gordon

これは、スクラップしようとしているページによって異なります。適切な形式（XHTMLやHTML5に適切な終了タグが付いている）の場合は、xPathを使用して構築することができます。しかし、特定のID、DiVなどの要素を検索して文字列を切り取るのがベストな（より難しいアプローチの）ケースが数多くありました。

出典

2012-03-01 11:49:28

HtmlDomとXpathは、ページの形式を知っている場合にのみ便利です。簡単に聞こえない擦り傷で。

Regex shouldn't be used for parsing hierarchical data.

出典

2012-03-01 11:59:11

のXPath、簡単なHTMLのDOMや正規表現がスクレーピングWebページ

答えて

関連する問題