spaCyとテキストクリーニング、 ' '

私はspaCyとpythonでsklearnのテキストを整理しようとしています。私は、ループを実行します。spaCyとテキストクリーニング、 ' '

for text in df.text_all: 
    text = str(text) 
    text = nlp(text) 
    cleaned = [token.lemma_ for token in text if token.is_punct==False and token.is_stop==False] 
    cleaned_text.append(' '.join(cleaned))

をそして、それはかなりうまく動作しますが、それはいくつかのテキストの 内部に残します。私はそれがtoken.is_punct==Falseフィルタによって取り出されると思ったが、私はhtmlタグのようなものを探しましたが、何も見つかりませんでした。誰でも私ができることを知っていますか？

import re 

# ... 
cleaned = [token.lemma_... 

clean_regex = re.compile('<.*?>') 
cleantext = re.sub(clean_regex, '', ' '.join(cleaned)) 

cleaned_text.append(cleantext)

注：

出典

2017-12-01 user3426752

あなたはいつでも以下のコマンドのように、Pythonの外部でデータセットを前処理することができます。cat FILE_NAME | sed -r 's/\
\
// g'> NEW_FILE_NAME –

あなたは正規表現を使用することができ、あなたのテキストが（ タグ以外の）「<」文字が含まれている場合、このメソッドは

は、この情報がお役に立てば幸い動作しません！

出典

2017-12-01 21:27:16

spaCyとテキストクリーニング、 '<br /><br />'

答えて

spaCyとテキストクリーニング、 '<br /><br />'

答えて

関連する問題