0
私は大きなExcelファイルを持っていて、各セルにはデータベースユーザーがコメントを含むさまざまなHTMLコンテンツを持っています。各セルのコンテンツはユニークで、長さが異なります。私は、このコンテンツをデータベーステーブルにアップロードできるように、すべてのHTML構文/タグを取り除く必要があります。 Python(またはPythonに答えがない場合はJava)を使用してこのデータをスクラップする方法はありますか?コード例を提供できますか?ローカルに格納されたHTMLファイルのスクラップ - Pythonを使用
を試してみましたか?あなたが書いたコードを私たちに教えてください。まだ何も試していないのであれば、[lxml](http://lxml.de/)ライブラリを使ってHTMLを解析し、そこからテキストを引くことができます。 –
コンテンツ・ストリングのどのようなものかの例を表示したいかもしれません。 –
Excel Cell1:コントロールキャビネットのインジケータライト は、24Vdc LEDに置き換えてください。 3赤& 3グリーン。 Excel Cell2: "