0
以下にHTMLスニペットがある場合、以下のようにPythonで必要な出力を得るにはどうすればよいですか?PythonでHTMLスニペットをカスタマイズする
サンプルHTMLスニペット:
<td width="10" class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&itemNumber=0">></a></td>
<td class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&itemNumber=0">002396653</a></td>
<td class="data1">IMPORT EXPRESS RECYCLE</td>
<td class="data1">961879066</td>
<td class="data1">11/23/2016</td>
<td class="data1"></td> <!--SARA-->
<td class="data1" align="center">CN</td>
<td class="data1" align="center">PVG</td>
出力:
961879066 |これまでのCN
マイコード:
def reading():
with open("C:\\Users\\John\\Desktop\\test.txt") as f:
for lines in f.readlines():
line = lines.replace("\t","").strip()
print (line)
f.close()
reading()
おかげで、
あなたがしようとしているウェブサイトのリンクを投稿する場合は、ところで、それが役立つだろう... HTMLコンテンツを解析するbeautifulsoup使用する必要があります掻き集める'soup.find_all( 'td'、{'class': 'data1'})'を使って 'class'属性が' data1'に等しいすべての 'td'タグを取得することができます。 –
私は@ dot.Pyに、リンク(または完全なHTMLページ)が必要であることに同意します。 4番目と6番目の 'td'タグのテキストが必要だと思うのは正しいでしょうか? –