私はhpricotでテーブルベースのウェブサイトからいくつかの情報を抽出しようとしています。私はFireBugでXPathを手に入れました。hpricot with firebug's XPath
/html/body/div/table/tbody/tr/td/table/tbody/tr[2]/td/table/tbody/tr/td[2]/table/tbody/tr[3]/td/table[3]/tbody/tr
これは...どうやら、放火犯のXPathは、レンダリングされたHTMLのパス、およびサイトから実際のHTMLで動作しません。私はtbodyを取り除くことで問題が解決するかもしれないと読んでいます。
私が試してみてください。
/html/body/div/table/tr/td/table/tr[2]/td/table/tr/td[2]/table/tr[3]/td/table[3]/tr
そして、まだ動作しません...私はもう少し研究を行うと、一部の人々は、彼らは数字を削除し、そのXPathを取得する報告、私はこれを試してみてください。
/html/body/div/table/tr/td/table/tr/td/table/tr/td/table/tr/td/table/tr
まだ運...
だから私はそれがこのようなステップバイステップで行うことを決定します
(doc/"html/body/div/table/tr").each do |aaa |
(aaa/"td").each do | bbb|
pp bbb
(bbb/"table/tr").each do | ccc|
pp ccc
end
end
end
私はbbbで必要な情報を見つけましたが、cccでは見つかりませんでした。
私は間違っていますか、長い/複雑なXPathでHTMLをスクラップするのに優れたツールがあります。