2017-05-24 6 views
0

以下にHTMLスニペットがある場合、以下のようにPythonで必要な出力を得るにはどうすればよいですか?PythonでHTMLスニペットをカスタマイズする

サンプルHTMLスニペット:

<td width="10" class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&amp;itemNumber=0">&gt;</a></td> 

      <td class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&amp;itemNumber=0">002396653</a></td> 

      <td class="data1">IMPORT EXPRESS RECYCLE</td> 

      <td class="data1">961879066</td> 

     <td class="data1">11/23/2016</td> 

      <td class="data1"></td>  <!--SARA--> 

      <td class="data1" align="center">CN</td> 

      <td class="data1" align="center">PVG</td> 

出力:

961879066 |これまでのCN

マイコード:

def reading(): 
    with open("C:\\Users\\John\\Desktop\\test.txt") as f: 
     for lines in f.readlines(): 
      line = lines.replace("\t","").strip() 
      print (line) 

    f.close() 

    reading() 

おかげで、

+1

あなたがしようとしているウェブサイトのリンクを投稿する場合は、ところで、それが役立つだろう... HTMLコンテンツを解析するbeautifulsoup使用する必要があります掻き集める'soup.find_all( 'td'、{'class': 'data1'})'を使って 'class'属性が' data1'に等しいすべての 'td'タグを取得することができます。 –

+1

私は@ dot.Pyに、リンク(または完全なHTMLページ)が必要であることに同意します。 4番目と6番目の 'td'タグのテキストが必要だと思うのは正しいでしょうか? –

答えて

0

あなたは以下試すことができますコードをgにするらは、出力に必要な:

import lxml.html 

html = lxml.html.fromstring("""<td width="10" class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&amp;itemNumber=0">&gt;</a></td> 
<td class="data1"><a class="datalink" href="m01_detail.asp?key=002396653&amp;itemNumber=0">002396653</a></td> 
<td class="data1">IMPORT EXPRESS RECYCLE</td> 
<td class="data1">961879066</td> 
<td class="data1">11/23/2016</td> 
<td class="data1"></td>  <!--SARA--> 
<td class="data1" align="center">CN</td> 
<td class="data1" align="center">PVG</td>""") 

output = html.xpath('concat(//td[4], "|", //td[7])') 
print(output) # '961879066|CN' 

峠元HTMLコードhtmlへの変数

関連する問題