2016-10-13 5 views
0

私は大きなExcelファイルを持っていて、各セルにはデータベースユーザーがコメントを含むさまざまなHTMLコンテンツを持っています。各セルのコンテンツはユニークで、長さが異なります。私は、このコンテンツをデータベーステーブルにアップロードできるように、すべてのHTML構文/タグを取り除く必要があります。 Python(またはPythonに答えがない場合はJava)を使用してこのデータをスクラップする方法はありますか?コード例を提供できますか?ローカルに格納されたHTMLファイルのスクラップ - Pythonを使用

+0

を試してみましたか?あなたが書いたコードを私たちに教えてください。まだ何も試していないのであれば、[lxml](http://lxml.de/)ライブラリを使ってHTMLを解析し、そこからテキストを引くことができます。 –

+0

コンテンツ・ストリングのどのようなものかの例を表示したいかもしれません。 –

+0

Excel Cell1:コントロールキャビネットのインジケータライト は、24Vdc   LEDに置き換えてください。 3赤&   3グリーン。 Excel Cell2: "

\t Close the Monthly LAD and Lanyard Work orders to show they were executed.

答えて

0

端末では、pip install bs4です。そして、あなたはそうのようなのpythonでテキストを抽出することができます。

import bs4 

for cell in [ 
    '<html>The indicator lights on the control cabinet&nbsp;are to be replaced with 24Vdc&nbsp;LED\'s. 3 Red &amp;&nbsp;3 Green.</html>', 
    '<html><div> <span style=""FONT-SIZE: 18pt"">Close the Monthly LAD and Lanyard Work orders to show they were executed. </span></div>']: 
    print(bs4.BeautifulSoup(cell).text.strip()) 

結果:あなたは何を

The indicator lights on the control cabinet are to be replaced with 24Vdc LED's. 3 Red & 3 Green. 
Close the Monthly LAD and Lanyard Work orders to show they were executed. 
関連する問題