データを抽出するときに、CSS/xpathsを使用できます。しかし、ページソースでこれを行う方法は似ています。ページソース、つまり各行の先頭にあるテレビをスクラップする信頼できる方法はありますか?
www.amazon.com/Best-Sellers-Electronics-Televisions/zgbs/electronics/172659
あなたは、ページのソースを取得し、正規表現を使用して解析したが、たとえばテレビがページにロードされなかった場合は、おそらく信頼性の高いことができませんでした。私はいろいろな解決策を探しましたが、私はまだ、各行の始めにすべてのテレビ(1、4、7など)を取得したり、信頼できる方法、例えばページのソースにCss/xpathsを使用していることを述べています。
私が後にしていることの信頼できる方法のゴールデンスタンダードは何ですか?