0
私はURLを持つ8Mエントリ/レコードのログファイルを持っています。私は重複したURL(同じURL)を見つけたいと思っていますが、唯一の違いは型/テキストの場合です。大文字と小文字の区別だけの重複レコードを見つける
例:この場合
origin-www.example.com/this/is/hard.html
origin-www.example.com/this/is/HARD.html
origin-www.example.com/this/is/Hard.html
、ケース感度で三個の重複があります。
出力だけカウント-cと重複して新しいファイルである必要があります。
ここで重複**があると正確に何を意味するのかによって、 '$ awk 'は[tolower($ 0)] ++' input_file> output'と表示されます。最初の試合) – woockashek
はい、私は今これを試しています。永遠にそれは3GBのtxtファイルです。 –
@Marcサンプルファイルを試してみて、出力が好きかどうかを確認してください。一度それについて確信したら、大きなファイルに対して実行してください。 – fedorqui