0
私はspaCyとpythonでsklearnのテキストを整理しようとしています。私は、ループを実行します。spaCyとテキストクリーニング、 '<br /><br />'
for text in df.text_all:
text = str(text)
text = nlp(text)
cleaned = [token.lemma_ for token in text if token.is_punct==False and token.is_stop==False]
cleaned_text.append(' '.join(cleaned))
をそして、それはかなりうまく動作しますが、それはいくつかのテキストの<br /><br />
内部に残します。私はそれがtoken.is_punct==False
フィルタによって取り出されると思ったが、私はhtmlタグのようなものを探しましたが、何も見つかりませんでした。誰でも私ができることを知っていますか?
import re
# ...
cleaned = [token.lemma_...
clean_regex = re.compile('<.*?>')
cleantext = re.sub(clean_regex, '', ' '.join(cleaned))
cleaned_text.append(cleantext)
注:
あなたはいつでも以下のコマンドのように、Pythonの外部でデータセットを前処理することができます。cat FILE_NAME | sed -r 's/\
\
// g'> NEW_FILE_NAME –