私はこのようなウェブサイトからデータを削り取ろうとしています。これは、単一のTD内の情報の4行を持って、私は私が最終的な結果は、JSONファイルに次のようになりたいスクレイピングの助けが必要になります。これまでのところ、私はきたJavaScript:文字間でプッシュ文字列を処理する方法は?
<div class="contentpage">
<table>
<thead></thead>
<tbody>
<tr>Main Title</tr>
<tr>
<td>
<strong>Sub Title here</strong>
<br>
"Address Part One"
<br>
"Address Part Two"
<br>
"666666"
<br>
"Tel No: 12345678"
</td>
</tr>
</tbody>
</table>
</div>
:
{
"mainTitle" : "Main Title"
"subTitle" : "Sub Title here"
"address1" : "Address Part One"
"address2" : "Address Part Two"
"postalCode" : "666666"
"telNo" : "12345678"
}
HTML 、私のJavaScriptをメインタイトルとサブタイトルをスクラップすることができたのみ:
function parseInfo ($) {
const result = {}
const enterRow = $('.contentpage > table').first().find('tr)
result.mainTitle = enterRow.eq(0).find('td').text().trim()
result.subTitle = enterRow.eq(1).find('td > strong').text().trim()
return result
}
のようなJSONはあなたがつかむしたい各要素にIDを追加することができ、そのIDによって要素を呼び出し、そのinnerHTMLのをつかみます。例をご希望の場合はお知らせください。 – Airwavezx
私が掻き取ろうとしているHTMLは私のものではなく、公開されたウェブサイトです。それは文字通り私が上で書いたような方法でフォーマットされています。 – LegoCamel
おそらく、字幕を含む 'td'全体(' strong'だけでなく)をつかんで、残りの情報を取り出すための文字列操作を行うべきでしょう。 – Airwavezx