私はこれらの非英語を含むすべての行を削除したい私は（中国、ラテンなど）などの異なる言語の文字を含むテキストファイルを持っているファイル

から非英語（ASCII）文字を含む行私はこれらの非英語を含むすべての行を削除したい私は（中国、ラテンなど）などの異なる言語の文字を含むテキストファイルを持っているファイル

を削除します文字。英語の文字（a〜b）、数字（0〜9）、すべての句読点を含めたい。

awkやsedのようなUNIXツールを使ってどうすればいいですか？

2012-07-20 Sudar

Perlは[:ascii:]文字クラスをサポートしています。

perl -nle 'print if m{^[[:ascii:]]+$}' inputfile

出典

2012-07-20 11:10:31

ありがとうございます。これは完全に機能しました。 – Sudar

あなたは（必要に応じてより多くの句読点を含め）パターンに一致する行だけないを返し、パターンとして[^ a-zA-Z0-9.,;:-'"?!]のようなものを使用するegrep -vを使用することができます。

でも、それについて考えると、ダブルネゲート（-vと倒立文字クラス）はおそらくそれほど良くありません。別の方法は^[ a-zA-Z0-9.,;:-'"?!]*$です。あなたはまた、単にASCIIのためにフィルタリングすることができ

：

egrep -v "[^ -~]" foo.txt

出典

2012-07-20 10:44:53 Joey

私はすべての句読点を必要としています。だから、許可された文字のリストを指定するのではなく、ASCII以外のすべての文字を除外することは可能ですか？ – Sudar

おそらく主なポイントに接していますが、範囲[a-z]には一部のロケールでは非ASCII文字が含まれています。たとえば、私のシステムでは 'echoé| grep [a-z] 'が見つかりません。 – Anachrome

あなたはCロケールの使用を強制提供し、Awkのを使用することができます。

LC_CTYPE=C awk '! /[^[:alnum:][:space:][:punct:]]/' my_file

環境変数LC_TYPE=C（またはLC_ALL=C）の文字分類のためのCロケールの使用を強制します。これは、文字クラス（[:alnum:]、[:space:]など）の意味をASCII文字のみと一致するように変更します。

/[^[:alnum:][:space:][:punct:]]/正規表現マッチラインには、非ASCII文字を使用します。正規表現の前の!は条件を逆転させます。 ASCII以外の文字がない行だけが一致します。アクションが与えられていないので、行のマッチングにデフォルトアクションが使用されます（print）。

EDIT：これはまた、grepで実行することができます：Perl互換の正規表現をサポートしているのGNU grepのと

LC_CTYPE=C grep -v '[^[:alnum:][:space:][:punct:]]' my_file

出典

2012-07-20 14:14:02

は、あなたが使用することができます。

grep -P '^[[:ascii:]]+$' file

出典

2017-09-08 07:16:37 hek2mgl

私はこれらの非英語を含むすべての行を削除したい私は（中国、ラテンなど）などの異なる言語の文字を含むテキストファイルを持っているファイル

答えて

関連する問題