-2
以下のような構造のページからコンテンツを取得しようとしていますが、段落とヘッダーの量が異なるページがあります。したがって、下の方には第4段落の後にヘッダがあります。これは時には2番目の段落の後に続くこともあります。正確なdivを指定せずに毎回すべてのコンテンツを順番に取得するにはどうすればよいですか?私はこれを試してみました:Xpathクラスや名前を指定してdivを順番に取得する方法
// */P [ID =「tab_info」@] [16]
それない仕事が、その後、私はタイトルを実行せずにCSV上にあるのXpathコードから出て働くことができません手仕事。私はおそらく "含まれている"必要があると思いますか?これは私のために動作していないようです:
//*[@id="tab_info"]/p[1][contains(.,strong)]
<div id="tab_info" class="tab_content active">
<h2>Information</h2>
<p><strong>This Is The Main Title</strong></p>
<p>This is a content div.</p>
<p><strong>This is Subtitle 1</strong></p>
<p>This is the second paragraph</p>
<p>This is the third paragraph</p>
<p>This is the fourth paragraph</p>
<p><strong>This is Subtitle 2</strong></p>
<p>This is the fifth paragraph.</p>
<p>This is the sixth paragraph.</p>
<p><strong>This is Subtitle 3</strong></p>
<p>This is the seventh paragraph.</p>
出力を試してみてください?正確にはどの要素ですか? – Andersson