私はかなり簡単なHTMLページからかなり簡単なデータセットを得るためにScrapy/XPathを使ってスクレーパーを書く必要がある私のIT仕事のためのプロジェクトに取り組んでいます。イタリック体のテキストを除いて、私はそれが望むようにすべての作業をしてきました。(傷ついたウェブサイトは、語学教育プログラムのためのものであり、この特定のテキストフィールドにイタリック体のインスタンスがたくさんあります。以下は書式付きテキストをXPathに含めるにはどうすればよいですか?
斜体の問題が思い付いた前に、私は正常に使用しているコードです:
rawTitles = []
for sel in response.xpath('//h2[@class="video"]'):
rawTitle = sel.xpath('text()').extract()
rawTitles.append(rawTitle[0])
print rawTitles
私は「印刷rawTitles」について、次のリターンを得る:私が欲しいもの
[u'\n', u'\nVariations in Making ', u'\nMaking ', u'\nCommon Rice and Meat Dishes', u'\nRumens and ']
のようなものですこれは、リテラルHTMLタグを出力に含めることができない場合
[u'\n<i>Mjadra</i>', u'\nVariations in Making <i>Mansaf</i>', u'\nMaking <i>Maqloobeh</i>', u'\nCommon Rice and Meat Dishes', u'\nRumens and <i>Mahashi</i>']
、私はLのだろう含まれる平文のように東。言葉がちょうど空白でなければならない空白は、私ができる最善のもののようには見えません。
私は何を試してみたいですか?十分な情報を提供していないかどうか教えてください。前もって感謝します。
編集:ここで私は情報を抽出する必要があり、そこからテーブルエントリの例です:text()
で
<td width="25%" valign="top" align="center">
<h2 class="video"><img src="content/pl_makingfood_mjadrah.jpg" alt="Thumbnail image from video" width="160" height="120" /><br /><br />
<i>Mjadra</i></h2> <p class="video">Video <br />
<a href="content/pl_makingfood_mjadrah.rm" class="main">real</a>
<a href="content/pl_makingfood_mjadrah.mp4" class="main" target="_blank">mp4</a><br /><br />
Palestinian Arabic & English <br />
<a href="content/pl_makingfood_mjadrah.doc" target="_blank" class="main"> doc </a>
<a href="content/pl_makingfood_mjadrah.pdf" target="_blank" class="main"> pdf </a></p>
</td>
サンプル入力HTMLを提供できますか? –
私はいくつかを追加しました。それほど助けにならないなら、私にもう一度教えてください。 – jah