文字列 "aa \ nbb \ ncc"の最後の文字から最初の改行( "a")までを一致させたい複数行の文字列と
"aa\nbb\ncc" =~ qr/(. $ .+)/xms
試合a\nbb\ncc
と
"aa\nbb\ncc\n" =~ qr/(. $ .+)/xms
試合a\nbb\ncc\n
ものと予想しました。
しかし、私は"aa\nbb\ncc" =~ qr/(. $ .+)/xms
の一致がなく、"aa\nbb\ncc" =~ qr/(. $ .+)/xms
の場合はc\n
と一致します。
qr/(. $ ..+)/xms
を使用すると、予想される結果が得られました(コード例を参照)。
Perlバージョン5.14.2。
誰でもその動作について説明できますか?
はperldocはperlre:
次のサンプルコードを実行するm Treat string as multiple lines. That is, change "^" and "$"
from matching the start or end of the string to matching the start
or end of any line anywhere within the string.
s Treat string as single line. That is, change "." to match any character
whatsoever, even a newline, which normally it would not match.
Used together, as "/ms", they let the "." match any character whatsoever,
while still allowing "^" and "$" to match, respectively, just after and
just before ewlines within the string.
\z Match only at end of string
:
#!/usr/bin/env perl
use strict;
use warnings;
print "Multiline string : ", '"aa\nbb\ncc"', "\n\n";
my $str = "aa\nbb\ncc";
print_match($str, qr/(. $)/xms); # matches "a"
print_match($str, qr/(. $ .)/xms); # matches "a\n"
print_match($str, qr/(. $ ..)/xms); # matches "a\nb"
print_match($str, qr/(. $ ..+)/xms); # matches "a\nbb\ncc"
print_match($str, qr/(. $ .+)/xms); # NO MATCH ! Why ???
print_match($str, qr/(. $ .+ \z)/xms); # NO MATCH ! Why ???
print "\nMultiline string now with terminating newline : ", '"aa\nbb\ncc\n"', "\n\n";
$str = "aa\nbb\ncc\n";
print_match($str, qr/(. $)/xms); # matches "a"
print_match($str, qr/(. $ .)/xms); # matches "a\n"
print_match($str, qr/(. $ ..)/xms); # matches "a\nb"
print_match($str, qr/(. $ ..+)/xms); # matches "a\nbb\ncc\n"
print_match($str, qr/(. $ .+)/xms); # MATCHES "c\n" ! Why ???
print_match($str, qr/(. $ .+ \z)/xms); # MATCHES "c\n" ! Why ???
sub print_match {
my ($str, $regex) = @_;
$str =~ $regex;
if ($1) {
printf "--> %-20s matched : >%s< \n", $regex, $1;
}
else {
printf "--> %-20s : no match !\n", $regex;
}
}
出力は次のようになります。
Multiline string : "aa\nbb\ncc"
--> (?^msx:(. $)) matched : >a<
--> (?^msx:(. $ .)) matched : >a
<
--> (?^msx:(. $ ..)) matched : >a
b<
--> (?^msx:(. $ ..+)) matched : >a
bb
cc<
--> (?^msx:(. $ .+)) : no match !
Multiline string now with terminating newline : "aa\nbb\ncc\n"
--> (?^msx:(. $)) matched : >a<
--> (?^msx:(. $ .)) matched : >a
<
--> (?^msx:(. $ ..)) matched : >a
b<
--> (?^msx:(. $ ..+)) matched : >a
bb
cc
<
--> (?^msx:(. $ .+)) matched : >c
<
これはPerlのバグのようです。良い発見!関連して: '' a \ nb "'は 'm/a $ .. \ z/ms'の代わりに' m/a $ ... \ z/ms'にマッチします。 *しかし*、ドットの周りにカッコを入れて何が起こっているのか理解しようとすると、突然m/a $(。)の代わりに 'm/a $(。)\ z/ms'と一致します。 。)(。)\ z/ms'。 – ruakh
むしろ変です。 perl 5.12.2と同じです。 – katastrophos