私はHTMLの点で次のようなことをしています。私の最初の衝動だった消費のためにxpathを使用して表のセルのテキストコンテンツを抽出していますか?
<p align="center">
<img src="some_image.gif" alt="Some Title">
</p>
<TABLE WIDTH=500 BORDER=1 class=textwhite ALIGN=center CELLPADDING=0 CELLSPACING=0>
<TR>
<TD colspan=4 ALIGN=center><b>Title</b></TD>
</TR>
<TR>
<TD ALIGN=center>Title</TD>
<TD ALIGN=center>date</TD>
<TD ALIGN=center>value</TD>
<TD ALIGN=center>value</TD>
</TR><TR>
<TD ALIGN=center>Title2</TD>
<TD ALIGN=center></TD>
<TD ALIGN=center><div class=redtext>----</div></TD>
<TD> </TD>
</TR><TR>
<TD ALIGN=center>Title3</TD>
<TD ALIGN=center><div class=yellowtext>value</div></TD>
<TD ALIGN=center><div class=redtext>value</div></TD>
<TD ALIGN=center>value<SUP>6</SUP></TD>
</TR><TR>
<TD ALIGN=center>Title4</TD>
<TD ALIGN=center><div class=bluetext>value</div></TD>
<TD ALIGN=center><div class=redtext>value</div></TD>
<TD> </TD>
</TR></TABLE>
<blockquote>
<p class="textstyle">
Text.
</p>
</blockquote>
:私はテーブルセルの様々なコンテンツを抽出したいと思います、しかし、私はいくつかの組み込みのdivは、細胞内で時折あることを発見し、私はまだのわからないんだけど、おそらく他の奇妙すべての要素テキストを抽出し、プログラムでそれをスライスします。 Title1、Title2などで行が始まるときを知り、 "----"が値なしを意味すると見なされたら、この行をスキップして移動します。しかし、おそらくこれをxpathで直接処理するより良い方法があることに気付きました。
どのようにしてxpathを使って解決すれば、各セルの最終的な子供のテキストコンテンツが存在する場合、各divに入る必要がありますか?または、これに近づくようなより多くのxpathがありますか?
明らかに、他の予期しない要素が発生しても、脆弱ではない最も柔軟なソリューションを試しています。
なぜ希望の出力を教えてください。 – pguardiario
希望の出力は、単に各セルの内容です。最終的に、これは、 "Title1"、 "Title2"などが各ハッシュの名前になるようにハッシュの配列に格納されます。次に、行に続く各セルに値がある場合、そのハッシュの追加値になります。 – ylluminate