grep/regexがアクセント付きの単語を見つけられない

私はこの単語のすべての文字が単語パターンと一致するファイルにいくつかの単語を入れる正規表現をマウントしようとしています。grep/regexがアクセント付きの単語を見つけられない

私の問題は、正規表現はアクセント付きの単語を見つけることができませんが、テキストファイルにはアクセント付きの単語がたくさんあることです。

cat input/words.txt | grep '^[éra]\{1,4\}$' > output/words_era.txt 
cat input/words.txt | grep '^[carroça]\{1,7\}$' > output/words_carroca.txt

し、ファイルの内容は次のとおりです：

私のコマンドラインは、私はそれを修正するにはどうすればよい

carroça 
éra 
éssa 
roça 
roco 
rato 
onça 
orça 
roca

？

出典

2011-01-19 GodFather

'locale'の出力は何ですか？ 'input/words.txt'のエンコーディングは何ですか？ – ephemient

それは私にとってはうまくいくかもしれませんが、多分問題は構文にあります。大括弧は文字のグループを定義するために使用されるので、少なくとも2行目は間違いです。試してみてください： grep '^carroça\ {1,3 \} $' – UncleZeiv

@UncleZeiv、私は正しい正規表現を間違えてしまいました。 – GodFather

あなたのファイルがISO-8859-1でエンコードされていますが、システムのロケールがUTF-8で、これが動作しません。

ファイルをUTF-8に変換するか、システムロケールをISO-8859-1に変更します。

 
# convert from ISO-8859-1 to the environmental locale before grepping 
# output will be in the current locale 
$ iconv -f 8859_1 input/words.txt | grep ... 

# run grep with an ISO-8859-1 locale 
# output will be in ISO-8859-1 encoding 
$ cat input/words.txt | env LC_ALL=en_US grep ...

出典

2011-01-19 19:26:52 ephemient

Dude、最初のオプション "iconv"が動作します。ありがとう。出力は今carroça ロカ ROCO ORCA ロカ車 RAA – GodFather

私は関連する質問hereが見つかったようです。あなたが期待するものを生成

cat input/words.txt | LANG=C grep '^[éra]\{1,4\}$' > output/words_era.txt

ん：

は、だからあなたのような何かをしようとすると？ @duleが言ったように

出典

2011-01-19 19:18:11 dule

残念ながら、出力は同じです。 – GodFather

は\をエスケープするのを忘れたので、投稿には表示されませんでした – dule

これらの場合、正面にスペースを追加するだけで、コードはより読みやすく、エスケープする必要はありません。私はあなたのためにここでこれをしました – UncleZeiv

はなく、LANG=en_US.iso88591と、試してみてください。

cat input/words.txt | LANG=en_US.iso88591 grep '^[éra]\{1,4\}$' > output/words_era.txt

出典

2011-01-19 19:24:57 UncleZeiv

そのようなロケール名はありません。 – ephemient

何もない、アクセントのない単語 – GodFather

@ephemient： 'locale -a'を使って見つけました。これは私のマシンでテストされ、GodFather'sと同じ状況を再現した後に動作します。 – UncleZeiv

と仮定すると、すべてが、私はそれをやっているか知っているので、私は通常ちょうど

perl -CSAD -le 'print if /^carroça{1,3}$/' filenames

ようなものを使用したい、UTF-8です。

出典

2011-01-19 21:51:00 tchrist

コメント（結局は）それは明確ではないすべてのものはしかし、UTF-8であることを確認です。 – ephemient

@ephemientエンコードの苦難は無限に終わっているようですね。 – tchrist

grep/regexがアクセント付きの単語を見つけられない

答えて

関連する問題