大きなテキストファイルから不要な文字を削除しようとしています(約3GB)。私は不要なフォワードとバックスラッシュをファイル全体で削除しようとしています。私は単語の間にチルダを保持したい、区切り文字として機能します。ファイルは次のように書式設定されています。私はすべての戻る/進むを削除したいと思う上の例ではそうPythonクリーニングデータ
Cornet~Chris Tyle
Cornet\~Warren Vache
Cornet~Roger Webster
Cornet~\Grimethorpe Coll//iery Band
Cornet/~Daniel Rollston
Cornet~Murley Silver Band
Chocolate~Chocolate liquor
Chocolate~Theobroma cacao
Chocolate~Meso/america
(チルダを維持しながら)単語が読めるようにスラッシュ。私はこれにPython Regex式を使用しますか?別の方法としては、スラッシュを含む行を削除するだけですが、最後の手段として残したいと思います。
**編集:申し訳ありませんが、1つのことを言いました!ラインの一部は次のように表示されます。
Chocolate~
Chocolate~Theobroma cacao
~Mesoamerica
私も**前後スラッシュを除去することに加えて、チルダの前または後に、あなたのための
感謝をNULLであるすべての行を削除する必要があります助けて!
、それは...のように、5行を取るだろう発します! 'tr -d/\\ < dirty.txt > clean.txt' – Amadan
あなたが何を意味するのか分かります。私は私がする必要がなかった場合、私はPythonを使用していないだろう! – lsch91
新しい要件のために更新されました: 'tr -d/\\ clean.txt'を実行してください。私は宿題でない限り*あなたが* Pythonを使わなければならない理由は分かりません。宿題には通常3Gbファイルは含まれていません... –
Amadan