似たような質問をたくさん読んだことがありますが、データのクリーンアップで得られるすべての問題の解決策は見つかりませんでした。どのようにユニコード特殊文字、HTMLマークアップ、jsから文字列をきれいにする - 純粋なテキストと句読点を残して - Pythonで?
私は、一連のウェブサイトをクロールし、ページの本文から特定のテキストブロックを取得するスクリプトを用意しています。
問題テキストにはまだHTMLマークアップのようなものがありますが、引用符のための別の記号( '悪い場合でも悪い場合もあります)、& ampのようなものなどです。
今は自分のクリーンアップ機能でテキストを解析していますが、完璧ではなく、まだいくつかのケースがありません。
これらのケースのすべてから文字列をクリーンアップし、「変換済み」などの文字を含むパッケージまたは一般的な方法があるのだろうか?
は例 –