私は多くのテキストファイルを持っています。各テキストファイルには、以下のような関心のあるセクションがあります。文字列内のstr_matchの使用
<tr>
<td ><b>发起时间</b></td>
<td colspan="2" style="text-align: left">2015-04-08</td>
<td style="width: 25%;"><b>回报机制</b></td>
<td colspan="2" style="text-align: left">使用者付费</td>
</tr>
ファイルによって異なる情報は、日付のみです。この場合、日付は2015-04-08
です。
日付を抽出したいです。私はRユーザーですが、通常str_match
をstringr
パッケージから使用します。私は文字列の先頭に次の文字列を指定します:
<td ><b>发起时间</b></td>
<td colspan="2" style="text-align: left">
しかし、この文字列が2行にまたがっているとすれば、何をするべきかわかりません。私に何ができる?それはに正規表現を使用することをお勧めしません
は、私はあなたの日付の形式が変更された場合、正規表現をしようと示唆している参照してください。初心者のためにこのリンクをブラウズすることができます:https://www.regular-expressions.info/rlanguage.html –
HTMLを解析する場合は、 'rvest'を使用してテーブルタグ間のテキストを抽出することをお勧めします。その後、追加のHTMLについて心配する必要はありません。 –