3つの正規表現パターンを1つの式に結合するにはどうすればよいですか?
は、私が最初に番目のタグ値最初TDタグ値し、このための適切な正規表現を使用してタグからIDを取得したいです。私はそれらを1つの式ですべて得るために1時間苦労してきました。解決策は何ですか?複数の正規表現グループと先読みを組み合わせる
regex for th tag:
th[^>]+l">([^<]+)</th
regex for td tag:
td>([^<]+)</td
regex for a tag:
<a((?!</a).)id="([^"]+)"
私はこのスニペットのような項目のリストを持っています。あなたは.
マッチ改行を作るために(?s)
修飾子を必要とする
(?s)th[^>]+l">(.*?)<\/th>.*?<td>(.*?)<\/td>.*?<a id="(.*?)"
:
...
<th scope="col">1X2</th>
<th scope="col" class="goR">Odds</th>
</tr></thead>
<tbody>
<tr class="row1">
<td>Fortuna Köln</td>
<td class="prc "><label><a id="MarketGroupListComponent25-selection-38225206.1" />
...
HTMLの構文解析ライブラリは、次のような簡単な抽出方法を提供します:https://jsoup.org/cookbook/extract-data/selector-syntax - 誰かがhtmlテーブルにコメントを追加するとあなたの正規表現がうまくいきません例えば、 – zapl
おかげで、私は間違いなくそれをチェックします! – SzabK
@zapl htmlが正しく書かれていないと、パーサが壊れています。たとえば、閉じられていないpタグなどです。パーサーはここでは最適なソリューションかもしれませんが、常に最適なソリューションではありません。 –