いくつかの特定のタグのテキストを一緒にタグに入れてテキストを得る方法は？

私はの治療を初めて利用しています。私はウェブからいくつかのデータをクロールしたい。私は以下のようなhtml文書を手に入れました。いくつかの特定のタグのテキストを一緒にタグに入れてテキストを得る方法は？

<div class="user-info"> 
    <p class="user-img"> 
     something in p tag 
    </p> 
    <em>text</em> data I want 
    <a href="#"> 
     something in a tag 
    </a> 
</div>

私はのみたいテキストデータを取得したいです。しかし、のテキストは、タグに入っています。だから私がdiv[contains(@class, "user-info")]/text()を使用した場合、私はがほしいと思うデータを得ることができます。 div[contains(@class, "user-info")]/node()を使用すると、すべてのタグがdiv.user-info、さらにdiv[contains(@class, "user-info")]/node()/text()になります。ですから、どうすればのテキストとのデータをと一緒にのテキストデータにしたいのですか？？

出典

2017-06-08 Simon

連結2つの必要なテキストノードを取得するためにXPath下に使用してみてください：

concat(//div[@class="user-info"]/em/text(), " ", //div[@class="user-info"]/text()[3])

出典

2017-06-08 06:47:10 Andersson

感謝を使用していますが、EM多分例えばデータ内：私はしたいテキストデータは、それがためだ失われました。 – Simon

try '// div [@ class =" user-info "] //テキスト（）[親（親:: aまたは親:: p）]' – Andersson

あなたが後、すべてのノードが必要な場合や<a href="#">something in a tag</a>前に、あなたがfollowing axisを使用することができます。

次軸文脈ノードの後ろにある、文脈ノードの後ろにあり、子孫を除き、属性ノードと名前空間ノードを除く、同じ文書内のすべてのノードを含む

>>> s = scrapy.Selector(text='''<div class="user-info"> 
...  <p class="user-img"> 
...   something in p tag 
...  </p> 
...  <em>text</em> data I want 
...  <a href="#"> 
...   something in a tag 
...  </a> 
... </div>''') 
>>> s.css('p.user-img') 
[<Selector xpath="descendant-or-self::p[@class and contains(concat(' ', normalize-space(@class), ' '), ' user-img ')]" data='<p class="user-img">\n  something i'>] 

>>> s.css('p.user-img').xpath('following::text()[following::a]').getall() 
['\n ', 'text', ' data I want\n '] 

>>> ''.join(s.css('p.user-img').xpath('following::text()[following::a]').getall()) 
'\n text data I want\n '

出典

2017-06-08 08:28:49

-1

私は""ととを交換して、div[contains(@class, "user-info")]/text()

出典

2017-06-08 08:52:13 Simon

いくつかの特定のタグのテキストを一緒にタグに入れてテキストを得る方法は？

答えて

関連する問題