私はHTMLアジリティパックにWebページをロードし、DOMを持っています。私はXPATHを使用して、ページ上のすべてのテキストを取り出す(ただし、<script>
タグ内にあるjavascriptは使用しません)。XPath "Not"。特定のタグを持つブランチを無視する
私は文字列(//)が必要で、ブランチ内の<script>
のタグを無視するには 'not'が必要です。
私は
doc.DocumentNode.SelectNodes("//text()[not(self::script)]"))
と
doc.DocumentNode.SelectNodes("//text()[not(script)]"))
どちらも仕事をしようとしています。返されるノードのXPathプロパティの例は(スクリプトに気づく)
/html[1]/body[1]/div[2]/div[4]/div[1]/div[1]/div[1]/div[3]/script[1]/#text[1]
私はこれらの投稿と相談しました。
Is it possible to do 'not' matching in XPath?
Grab all text from html with Html Agility Pack(これは良い記事ですが、それはJSを引き出し)
任意の提案ですか?
されるであろう..../* [not(self :: script)]/text()(もう一つは何らかの理由でしなかった)Thanks! – DJA