2017-04-05 10 views
1

XPathを使用してChromeのスクレーパー拡張機能を使用しようとしています。私はテーブルから必要なものすべてを掻き取ることができましたが、私は1つの場所で立ち往生しています。ここでは、ソースXpath - TD内の要素を除外

<td> 
<p class="pClass"> 
    <a href="theurl" target="_blank"> 
     <i class="iClass">someText</i> 
    Anchor text 
    </a> 
</p> 
</td> 

私はちょうどURLをつかむしようとしているが、td[9]/p/aとして私のXpathコードを使用しているとき、それは「someTextは」言うアイコンの一部をつかむです。 URLを取得する方法はありますか?

+0

xpath式に '@ href'を追加すると、これはうまくいくはずです:' // td [9]/p/a/@ href' – vold

+0

ありがとう@vold。ご覧のとおり、ここでnewbを完成させてください。テキスト内のスペースを無駄にせずに、テキストの前後で余分な空白を取り除く方法を知っているとしたらどうですか? – user1701252

+0

ネバーマインド@vold。それが正規化空間だと分かりました。あなたの助けをもう一度ありがとう! – user1701252

答えて

1

urlを抽出するには、xpath式に@hrefを追加するだけです。これは、//td[9]/p/a/@hrefとなります。 空白を取り除くには、xpath関数normalize-space()を使用できます。

関連する問題