2017-12-27 29 views
0

bs4がインストールされています。テキストファイルからHTMLタグをどうやって削除しますか?簡単に言えば、ESRIメタデータアイテムをそのメタデータのHTMLページからテキストファイルに書き込むスクリプトがあります。これらのアイテムのいくつかについては、何らかの理由でHTMLフォーマットコードも書き込まれます。 BeautifulSoupを使用してこのコードを削除するにはどうすればよいですか?それはうんざりしている。 TextfileテキストファイルからBeautifulSoupタグを削除

+0

予想される出力は何ですか、今まで何を試しましたか? – johnII

+1

'soup.text'を試してください –

+0

htmlタグなしでそのデータを抽出しますか? –

答えて

2

このためw3lib librarybs4の必要はありませんを使用します:

from w3lib.html import remove_tags 

text = "your text" 
new_text = remove_tags(text) 
0

@eLRuLLのおかげで、タグを削除するために素晴らしい作品

この添付ファイルの説明項目はHTMLを持っています。しかし、私がこのスクリプトを使用しているこれらのメタデータ記述の中にはかなり長いものがあり、テキストを変数として入力するのは悪い考えです。そのため、私はこれを試しました:

import arcpy 
import arcpy_metadata as md 
from w3lib.html import remove_tags 
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY' 
metadata = md.MetadataEditor(ws) 
def meta2txt(): 
    abstract = metadata.abstract 
    if abstract: 
     w3lib.html.remove_tags(abstract) 

スクリプトは実行されますが、HTMLはまだそこにあります。

+0

あなたの質問を解決してくれることを嬉しく思います。 – eLRuLL

関連する問題