を維持し、散在太字タグでHTMLからテキストを抽出する:私は、XPathを使用してい私は次のような構造のHTMLファイルからテキストを抽出しようとしていますため
<td class='srctext>
<pre>
<b> Heading 1 </b>
text
more text
<b> Heading 2 </b>
even more text,
<b> also some bold text </b>
and the last text
</pre>
をこれを行うには、以下のような
//td[@class='srctext]/pre/b
は私がすべてボールドタグの内部テキストを取得し、これを行う、と私は、文字列()のラッパーを使用することにより、前の全体の内部テキストを取得することができます。
[
'Heading 1',
'text \n more text',
'Heading 2',
'even more text',
...
]
何かが不明であるかどうか尋ねることを躊躇しないでください:私がやるのに苦労していますしかし何
は、のような結果を得ています。