ローカルに格納されたHTMLファイルのスクラップ - Pythonを使用

私は大きなExcelファイルを持っていて、各セルにはデータベースユーザーがコメントを含むさまざまなHTMLコンテンツを持っています。各セルのコンテンツはユニークで、長さが異なります。私は、このコンテンツをデータベーステーブルにアップロードできるように、すべてのHTML構文/タグを取り除く必要があります。 Python（またはPythonに答えがない場合はJava）を使用してこのデータをスクラップする方法はありますか？コード例を提供できますか？ローカルに格納されたHTMLファイルのスクラップ - Pythonを使用

出典

2016-10-13 andi m

を試してみましたか？あなたが書いたコードを私たちに教えてください。まだ何も試していないのであれば、[lxml]（http://lxml.de/）ライブラリを使ってHTMLを解析し、そこからテキストを引くことができます。 –

コンテンツ・ストリングのどのようなものかの例を表示したいかもしれません。 –

Excel Cell1：コントロールキャビネットのインジケータライトは、24Vdc LEDに置き換えてください。 3赤& 3グリーン。 Excel Cell2： "

\t Close the Monthly LAD and Lanyard Work orders to show they were executed.

–

端末では、pip install bs4です。そして、あなたはそうのようなのpythonでテキストを抽出することができます。

import bs4 

for cell in [ 
    '<html>The indicator lights on the control cabinet&nbsp;are to be replaced with 24Vdc&nbsp;LED\'s. 3 Red &amp;&nbsp;3 Green.</html>', 
    '<html><div> <span style=""FONT-SIZE: 18pt"">Close the Monthly LAD and Lanyard Work orders to show they were executed. </span></div>']: 
    print(bs4.BeautifulSoup(cell).text.strip())

結果：あなたは何を

The indicator lights on the control cabinet are to be replaced with 24Vdc LED's. 3 Red & 3 Green. 
Close the Monthly LAD and Lanyard Work orders to show they were executed.

出典

2016-10-13 21:16:08

ローカルに格納されたHTMLファイルのスクラップ - Pythonを使用

答えて

関連する問題