2017-08-25 15 views
0

私はパンダの.htmlファイルを読むのが好きです。以下のソースhtmをご覧ください。私は読んしようとしていますPandas、Pythonを使ってhtmlファイルを読む

<html> 
<head> 
<title>Output File</title> 
</head> 
<body> 
<pre> 
<span style='color:black'>-----------------------------------------------------------------------------------------------------------------------------------</span> 
<span style='color:black'>| Study Case: Case A_Lines                   | Annex:    /1 |</span> 
<span style='color:black'>-----------------------------------------------------------------------------------------------------------------------------------</span> 
<span style='color:black'>| System Summary                             |</span> 
<span style='color:black'>-----------------------------------------------------------------------------------------------------------------------------------</span> 
<span style='color:black'>| System Average Interruption Frequency Index   : SAIFI = 0.373016 1/Ca            |</span> 
<span style='color:black'>| Customer Average Interruption Frequency Index  : CAIFI = 0.373016 1/Ca            |</span> 
<span style='color:black'>-----------------------------------------------------------------------------------------------------------------------------------</span> 
<span style='color:black'></span> 
</pre> 
</body> 
</html> 

最も関連性の高い情報は、私は多くのオプションを直接それを読んでみましたが、失敗している

SAIFI 0.373016 1/Ca 

、インデックスなどの値の表です。

df = pd.read_html(path, match='=') 

助けてください!

答えて

0

pandasで試しましたが、エラーが返されました。 ?あなたはBeautifulSoapで試すことができます。もちろん

In [20]: from bs4 import BeautifulSoup 
In [21]: f = BeautifulSoup(open("file.html")) 
In [22]: f.findAll("span")[5].text.split()[-3] 
Out[22]: u'0.373016' 

を私は値を識別するために使用方法を改善することができます。

ありがとうございました

+0

ありがとうございました!できます。 – user56579

+0

あなたが幸せであれば、あなたは歓迎です答えを受け入れてください:) – Alberto

関連する問題