2016-11-10 9 views
0

私はURLを持つ8Mエントリ/レコードのログファイルを持っています。私は重複したURL(同じURL)を見つけたいと思っていますが、唯一の違いは型/テキストの場合です。大文字と小文字の区別だけの重複レコードを見つける

例:この場合

origin-www.example.com/this/is/hard.html 
origin-www.example.com/this/is/HARD.html 
origin-www.example.com/this/is/Hard.html 

、ケース感度で三個の重複があります。

出力だけカウント-cと重複して新しいファイルである必要があります。

答えて

3

使用するすべての行が同じ場合であっても行うことtolower()又はtoupper()と組み合わせ典型的awk '!seen[$0]++' fileトリック:全く異なる出力とカウンタの

$ awk '!seen[tolower($0)]++' file 
origin-www.example.com/this/is/hard.html 

は、有効な所望の出力を提供します。

+1

ここで重複**があると正確に何を意味するのかによって、 '$ awk 'は[tolower($ 0)] ++' input_file> output'と表示されます。最初の試合) – woockashek

+0

はい、私は今これを試しています。永遠にそれは3GBのtxtファイルです。 –

+0

@Marcサンプルファイルを試してみて、出力が好きかどうかを確認してください。一度それについて確信したら、大きなファイルに対して実行してください。 – fedorqui

関連する問題