私は、WebページをXMLに解析するために、HTMLパーサーライブラリを使用しています。 XMLでは、xPathクエリを使用して相互に属しているテキストを含むノードを選択します。ここでxPathクエリのヘルプ
は、HTMLの例です:
HTMLの構文解析された作品にXPathを使用し<p><span style="font-family: 'Verdana','sans-serif'; font-size: 32pt;"><span style="font-family: 'Verdana','sans-serif'; font-size: 11pt; mso-bidi-font-size: 18.0pt;"> <span style="line-height: 115%; font-family: 'Verdana','sans-serif'; font-size: 36pt; mso-fareast-font-family: Calibri; mso-bidi-font-family: 'Times New Roman'; mso-fareast-language: EN-US; mso-ansi-language: SV; mso-bidi-language: AR-SA;"> </span> VECKA 3</span></span></p><p><span style="font-family: 'Verdana','sans-serif'; font-size: 32pt;"></span><span style="font-family: 'Verdana','sans-serif'; font-size: 11pt; mso-bidi-font-size: 18.0pt;"> 17-21 JANUARI</span></p>
<p style="margin-bottom: 0pt;"><span style="font-family: 'Verdana','sans-serif'; font-size: 11pt; mso-bidi-font-size: 18.0pt;"> </span><span style="font-family: 'Verdana','sans-serif'; font-size: 11pt; mso-bidi-font-size: 18.0pt;">11.30-14.30</span></p>
<p style="margin-bottom: 0pt;"><span style="font-family: 'Verdana','sans-serif'; font-size: 10pt; mso-bidi-font-size: 15.0pt;">MÅNDAG: Parmesangratinerad tungafile med paprikasås</span></p>
<p style="margin-bottom: 0pt;"><span style="font-family: 'Verdana','sans-serif'; font-size: 10pt; mso-bidi-font-size: 15.0pt;"> Biffgryta med syltlök & ris</span></p>
、私は言葉MÅNDAG、だけでなく、所属次<span>
-nodeを含む<span>
-nodeを選択しますそれ。たとえば、テキストを含むノードを選択したいとします。 "MÅNDAG:Parmesangratinerad tungafile medpaprikasås"とテキスト "Biffgryta medsyltlök& ris"を選択します。
"//span[contains(.,'MÅNDAG') or (contains(.,' ') and ../parent-sibling::/span[contains(.,'MÅNDAG')]]"
任意のアイデア:
は、私は次のようになりますXPathを使用したいと思いますか? XPath 2.0ので
//span[contains(.,'MÅNDAG ')] | //span[contains(.MÅNDAG')]/following:span[1]は仕事をしました、ありがとう! –