大文字と小文字の区別だけの重複レコードを見つける

私はURLを持つ8Mエントリ/レコードのログファイルを持っています。私は重複したURL（同じURL）を見つけたいと思っていますが、唯一の違いは型/テキストの場合です。大文字と小文字の区別だけの重複レコードを見つける

例：この場合

origin-www.example.com/this/is/hard.html 
origin-www.example.com/this/is/HARD.html 
origin-www.example.com/this/is/Hard.html

、ケース感度で三個の重複があります。

出力だけカウント-cと重複して新しいファイルである必要があります。

使用するすべての行が同じ場合であっても行うことtolower()又はtoupper()と組み合わせ典型的awk '!seen[$0]++' fileトリック：全く異なる出力とカウンタの

$ awk '!seen[tolower($0)]++' file 
origin-www.example.com/this/is/hard.html

は、有効な所望の出力を提供します。

2016-11-10 14:07:09 fedorqui

ここで重複**があると正確に何を意味するのかによって、 '$ awk 'は[tolower（$ 0）] ++' input_file> output'と表示されます。最初の試合） – woockashek

はい、私は今これを試しています。永遠にそれは3GBのtxtファイルです。 –

@Marcサンプルファイルを試してみて、出力が好きかどうかを確認してください。一度それについて確信したら、大きなファイルに対して実行してください。 – fedorqui

答えて