正規表現道場@2ch

**ヽ(´▽｀)ノ** · 2001/07/26(木) 09:03

以外と毛嫌いして居る人も多そうな正規表現、
でもperlを使いのなす上で避けて通れない道だったりするかもです。
そこで、スクラップブック的に目に止まったカッコイイ正規表現を
書き留めておこうと言うスレッドです。
質問する時は言語と、得たい結果をなるべく詳しく書いてね。

取り合えず僕が知ってる有用なリンクです。
http://www.din.or.jp/~ohzaki/perl.htm
http://www.kt.rim.or.jp/~kbk/regex/regex.html

もっとｲｲ（・∀・）リンクは>>2-10さん辺りが書いてくれるカモ････

**nobodyさん** · 02/09/05 14:36

>>592
上の例だとマッチするが…
下記に確認に使ったソースを載せとく。

他に何か言い忘れてる事ある？
マッチさせたくてさせられなかった文字列はどんな？

#! /usr/local/bin/perl

print "Content-type: text/plain\n\n";

$hoge = '＞あああ　＞おおお;';
$hoge =~ s|(＞(?![^;]+＞)[^;]+);|$1|g;

print "$hoge";

**581** · 02/09/05 14:40

>>592
すいません
バッチリでした。
ちょっとぜんぜん関係ないところでミスってました。

本当に申し訳ありませんが、もうひとつだけ条件追加させてください。

＞と;の間で改行したらマッチしないようにしたいです。
この場合の改行は なので改行コードではないです。
だから簡単だと思ったのですが、「 」という文字列を丸ごと指定する方法が
わかりません。

こまった。

**nobodyさん** · 02/09/05 14:53

>>594
$hoge =~ s%(＞(?![^;]*(?:＞| ))[^;]*);%$1%ig;

どこに が入ってるかわかんないので+を*に変えといた。
ので、＞;でもマッチしてしまうが。

**581** · 02/09/05 15:11

まじで感謝です
＞;でマッチするのはぜんぜんOKです。

ありがとうございました！

**nobodyさん** · 02/09/05 16:03

2バイト目が81の文字の後に1バイト目が84の文字が続くと
＞の部分にマッチしてしまう罠。

**nobodyさん** · 02/09/05 17:50

>>597
（　´,_ゝ`）ﾌﾟｯアサハカさんですね

**nobodyさん** · 02/09/14 03:35

$QUERY{'hd'}が「あ」だったら
あほ、あへへ、とかにヒットするようにしたいんですが、やり方わかりません。
if ($DB[$key] =~ /^$QUERY{'hd'}.*/) ～
とかやってみました。ぜんぜんだめです。「{」は「\{」って書くんですか？
やってみたけどだめでした。どやってやったらいいですか。

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/14 08:27

>>599
条件をもっと正確に書きましょう
「あほ、あへへ、とか」って？
$DB[$key]が「あ」で始まる任意の文字列にマッチする場合ということなら
if ($DB[$key] =~ /^$QUERY{'hd'}.*/) ～
これでええです。
エラーをもっと正確に書きましょう
「ぜんぜんだめです。」って？
エラーメッセージを見ればほとんどのことは分かるんです

**nobodyさん** · 02/09/14 16:49

^ はいらないんじゃない？

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/14 21:28

>>601
$ perl -e '$var="abc"; if ($var=~/b/){print "601 is an aho!\n";}'
601 is an aho!

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/14 21:30

$ perl -e '$var="abc"; if ($var=~/^b/){print "601 is an aho!\n";} else {print "
601 is God!\n";}'
601 is God!

**nobodyさん** · 02/09/15 00:00

>>602 がah(略

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/15 07:34

>>602, >>603はGod
>>604はdoah（略

**nobodyさん** · 02/09/16 22:01

文字列置換で置換後に\1を参照した直後に1を挿入したいのですが、\11と書いたら
だめでした。どうやって書けばいいですか。よろしくお願いします。
$error_flags = "0000000000000";
$error_flags =~ s/^(\d{1})\d{1}(\d{11})$/\11\2/g if ($QUERY{'form_v2'} eq "");
$error_flags =~ s/^(\d{2})\d{1}(\d{10})$/\11\2/g if ($QUERY{'form_v3'} eq "");

**nobodyさん** · 02/09/16 22:10

${1}1$2

**nobodyさん** · 02/09/16 22:16

おお、なるほど。そんな書き方でしたか。やってみます。
どうもありがとうございます。

**nobodyさん** · 02/09/17 02:24

３文字の数字のみにマッチをしているのですが、できません。

if($word=~/^[0..9]{3,3}$/){ print"ok";}

\dなど使わないでこの形式で正して下さい。

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/17 02:42

>>609
相当の初心者さんですね
[0-9]{3}

**nobodyさん** · 02/09/17 03:51

>>610
できた。できた。ありがとうございます。{3,3}でもできた。

**nobodyさん** · 02/09/17 08:17

>>611
>{3,3}でもできた。
そりゃできるだろうけど、「3文字の数字」を探すときにわざわざ
「3文字以上3文字以下の数字」って書くのはちょっとね。

**nobodyさん** · 02/09/17 09:33

少し前に、Web製作板のJavaScriptスレでも同じ質問があったな…

**nobodyさん** · 02/09/17 11:32

>>610
なかなかの初心者さんですね
\d\d\d

**nobodyさん** · 02/09/17 12:25

>>614
な（略）
\d{3}

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/17 12:33

>>614, >>615
不合格！！
よく問題を読みましょう.
\dを使わずにやれとある

**nobodyさん** · 02/09/17 12:37

なんてこっﾀ━━━━━(ﾟ∀ﾟ)━━━━━ｲ!!!!

**nobodyさん** · 02/09/18 11:38

[0-9][0-9][0-9]

**nobodyさん** · 02/09/18 18:06

[0123456789][0123456789][0123456789]

**nobodyさん** · 02/09/22 08:08

初心者ですいません。

12345 や 67890 や at41n や hyrdf985 や s4r などの文字列を

12 67 at hy s4

のように先頭の２文字だけに変換させるのはどうしたらよいでしょうー。
substr使えやｺﾞﾙｧといわずに、正規表現でやってみたいのです。
何文字あるのかわからないため、...$ などは使えないし。
s/^..// なんてやると２文字だけ消えてしまうし、、
$_ = '1234567';
/(^..)/;
ってやれば、$_ = $1 でできるかもしれないけど、こんな手間かけるのもアレやし、、

s/先頭の２文字でない文字//;

とかやりたいの。

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/22 08:32

>>620
s/(^..).+/$1/
じゃ不満？

**nobodyさん** · 02/09/22 08:39

>>621
それでもOKです、ありがとう！！！
でも、対象文字列が２文字でもOKです？
一応、対象となる文字列は「最低２文字はある」ということを前提にしてもよいです。

.+ って0文字でもよい？

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/22 08:43

そならs/(^..).*/$1/だよね。
.+は1文字以上。

**nobodyさん** · 02/09/22 08:53

>>623
そうかー、さんきゅー助かった！
迷惑ついでにもうひとつ聞くけど、
substr使うより、正規表現使ったほうが処理早い？

「何文字かの文字列を先頭の２文字だけに変換する」
という処理を数千件行うんだけど、どっちが早い？
数千件程度じゃあんまり変わらんかｗ

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/22 09:03

>>624
死らん。やってみて報告キボンヌ。
$start=time();
while(<>) {
s/(^..).*/$1/; #または、substr($_, 0, 2);
}
$end=time();
print $end-$start, "\n";

**nobodyさん** · 02/09/22 09:11

>>625
数千件と言いながら3357件しかないので、
たいして変わんなかったｗ
期待はずれｽﾏｿ

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/22 09:12

>>642って書いたけど、その後の処理の内容が問題じゃん。
s///は$_が変化している。substrはそのまま。
$_にさらに処理を加えるなら、s///にしなきゃだめだけど
最初の2文字出すだけならprint substr...の方が早いっしょ。

**nobodyさん** · 02/09/22 09:20

>>627
そかそか、勉強になった、さんくすｺ

**nobodyさん** · 02/09/22 19:02

正規表現は基本的に遅いよ。
他のやり方でやろうとすると数行並べなきゃならなくなるような
処理なら素直に正規表現使った方が速くなることもあるけど。

use Benchmark;
timethese(500000,{
1=>q{
$hoge = '123456789';
$hoge =~ s/^(..).*/$1/;
},
2=>q{
$hoge = '123456789';
$hoge = substr($hoge,0,2);
}
});
Benchmark: timing 500000 iterations of 1, 2...
1: 20 wallclock secs (20.69 usr + 0.00 sys = 20.69 CPU) @ 24167.43/s (n=500000)
2: 3 wallclock secs ( 3.55 usr + 0.00 sys = 3.55 CPU) @ 141003.95/s (n=500000)

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/23 10:25

>>629
べんきょになりましたm(__)m

**nobodyさん** · 02/09/23 14:48

JRE32v1.17で

std::string
string
std::vector
vector

にヒットする正規表現がわかりません・・・

(std::)?string|vector

だと、std::が付いてないヤツにヒットしないです

**nobodyさん** · 02/09/23 14:50

(std::|)?string|vector

**631** · 02/09/23 14:54

>632
そ・・・そんな単純な事なのか・・・
ありがとうございました

**名無しさん＠お腹いっぱい。** · 02/09/24 23:42

きっと誰かやってると思うんだけど、日本語を含む文字列中の , . など
区切り文字を空白に置換する正規表現を教えてください。
できれば、。「」なんかもできるといいです。

**nobodyさん** · 02/09/24 23:58

>>634
tr/,./ /;
s/\x81[\x40-\x42]/ /g;#SJIS

**nobodyさん** · 02/09/25 00:03

s/\x81[\x40-\x42]|[^\x81-\x9f][,.]/ /g;#SJIS

**nobodyさん** · 02/09/25 00:11

>>636
（　´,_ゝ`）ﾌﾟｯ

**636** · 02/09/25 00:13

あ、いろんな意味でダメだこれ。

**名無しさん＠お腹いっぱい。** · 02/09/25 00:16

>635-636
すみません。EUC-JPなんです。
とりあえず、JIS X 208の01-03区は記号っぽいので、
tr/,./ /;
s/[\xA1-\xA3][\xA1-\xFE]/ /g;
とやってみましたが日本語が化ける場合があります。

**637** · 02/09/25 00:25

では、わたしから

s/[.,]|\xa1[\xa2\xa3\xd6\xd7]/ /g;

**nobodyさん** · 02/09/25 00:42

>>640
「◆□」とかの\xa2\xa1\xa2\xa2みたいに並んだ文字で誤変換するぞ

**nobodyさん** · 02/09/25 00:47

区の指定と点の指定を区別せにゃならんな。

**637** · 02/09/25 00:58

そこまで完璧に処理するとなるとオーバーヘッドがでかくなるんでないかな
一応以下のやつではどうだ？（１６進と８進がいりまじってるけどきにするな）

s/([.,]|\xa1[\xa2\xa3\xd6\xd7])|(\216[\241-\337]|\217?[\241-\376].|.|\n)/$1?' ':$2/ge;

**nobodyさん** · 02/09/25 01:05

この辺嫁。
http://www.din.or.jp/~ohzaki/perl.htm#JP_Match

**名無しさん＠お腹いっぱい。** · 02/09/25 01:50

>>640-644
レスありがとうございます。
>>644のリンク先に書いてある方法で、
s/\G((?:$ascii|$twoBytes|$threeBytes)*?)(?:[\x20-\x2F\x3A-\x40\x5B-\x60\x7B-\x7F]|[\xA1-\xA3][\xA1-\xFE])/$1 /g;
でうまくいきそうです。

**nobodyさん** · 02/09/29 19:27

URLに使える文字がエスケープされていたら(%7Eとか%2Eとか)
元に戻す( ~ とか . とかに)という処理を正規表現で行えますか?

**nobodyさん** · 02/09/29 19:35

(ﾟдﾟ)ﾊｧ?
URLデコードで検索しろや。

**nobodyさん** · 02/09/29 20:32

URLデコードだとデコードしたら意味が変わる文字までデコードしちゃうじゃないですか。
安全にデコードできるパターンだけを元に戻したいんですけどそういう判定を
正規表現でできますか? という質問。

**nobodyたん** · 02/09/29 21:46

>>648
できる。

**nobodyさん** · 02/09/30 09:51

>>648
ふつーは単純にURLでコードすりゃいいだろ。
何か特殊な事情があるならやりたいことを詳しく書け！

**nobodyさん** · 02/09/30 12:56

>>648
指定が面倒そうだから一度エンコードしてデコードし直せば？
s/%([a-f\d]{2})/pack("H2",$1)/ieg;
s|([^\w/\.&%?~+=:@#\-])|'%'.unpack("H2",$1)|eg;

**651** · 02/09/30 12:58

違う、デコードしてエンコードし直す、だな。

**nobodyさん** · 02/10/01 01:46

>>650
URLを同一性チェックのために正規化したいんです。
>>651
それだと最初はエンコードされてなかった / とか # とかも
エンコードされてしまいまつ…

**nobodyさん** · 02/10/01 01:57

>>653
意味わかって言ってる？
>>651のは「\w/.&%?~+=:@#-」以外の文字をエンコードするって
意味だぞ。

**nobodyさん** · 02/10/01 10:50

>>654
ごめん '[' とか ']' とかが、とでも読み替えてください

**nobodyさん** · 02/10/01 10:56

ていうか最初は %2F にエンコードされてた / が
デコードされてしまうのでやっぱり困ります。
同一視されては困るからエンコードしてるのに
区別がつかなくなっちゃう。

**nobodyさん** · 02/10/01 12:21

>>656
だから意味考えろって。
'[' ']'をエンコードさせたくないなら[^～]の中に
\[\]を加えればいいだけだろ。
/はエンコードしたいなら[^～]の中の/を外せばいいだろ。
お前の頭にゃ何が詰まってんだ？
エンコードしたくないものを[^～]の中に並べるだけ。
>>651のはただの一例だろ。実際に何を並べるかくらい自分で考えろ。

**nobodyさん** · 02/10/01 12:31

>>656
同一視って、何と何が？

**nobodyさん** · 02/10/01 12:35

>>656まずは例を出してみようよ。この文字列を
このようにしたい、って感じで。

君の説明わかんないよ。

**nobodyさん** · 02/10/01 12:48

＞URLに使える文字がエスケープされていたら(%7Eとか%2Eとか)
＞元に戻す( ~ とか . とかに)という処理を正規表現で行えますか?

＞ていうか最初は %2F にエンコードされてた / が
＞デコードされてしまうのでやっぱり困ります。

このへんが特にわからないね。
URLで使える文字を戻したいんじゃ無かったのか？

**nobodyさん** · 02/10/01 12:59

質問しとる方も何がしたいのかわかってないんちゃうか？

**nobodyさん** · 02/10/01 15:00

>>657-660
最初が「/%2F」なら「//」でも「%2F%2F」でもなくて
「/%2F」のままなるようにしたいんです。文字クラスに
足したり引いたりするだけでそんなこと出来ますか?
「~%7E」は「~~」にしたいです。
そのままにしたい文字(「/」のような)と統一したい文字
「~」のような)を区別する基準は、RFC2396のunreservedに
含まれるか否かです。

たとえば「/%7Ehoge」と「/~hoge」は同じURIだから、
この変換を掛けた後はどちらも同じ文字列にしたいけど、
「a/index.html」と「a%2Findex.html」は違うURIだから
同じになっては困るということです。

**nobodyさん** · 02/10/01 15:42

>>662
my %reserved = map { unpack('H2',$_) =>1 } qw(; / ? : @ & = + $ ,);
s/%([0-9A-Fa-f][0-9A-Fa-f])/$reserved{lc $1}?"%$1":pack('H2', $1)/eg;
こんなとこか？

**nobodyさん** · 02/10/02 03:14

>a%2Findex.html
このURL自体がありえないと思う。

**nobodyさん** · 02/10/02 12:06

>>664
Mac OS 9のサーバなら十分にありうる。
RFC 2396的にも別に禁止されてない。

**nobodyさん** · 02/10/02 12:07

つか /　が気に入らないなら別の文字当てはめてみろよ。
# と %23 が同一視されたらまずいのは明らかだろ。

**nobodyさん** · 02/10/06 00:18

もっとも後ろにある , 以降の文字列を削除する正規表現を教えてください。

例
12345,67890,12345,67890 →　12345,67890,12345
aaa3,5567,3333333,aser567　－>　aaa3,5567,3333333
dser6f,ghhs,,asfa,wfdw,,,,asf -> dser6f,ghhs,,asfa,wfdw,,,

**nobodyさん** · 02/10/06 00:21

s/,[^,]*$//;

**nobodyさん** · 02/10/06 00:36

>>668
thx

**nobodyさん** · 02/10/06 01:34

連ｶｷｽﾏｿ。
６個目の , 以降の文字列を削除する正規表現について。

例
11111,22222,33333,44444,55555,66666,77777
　→　11111,22222,33333,44444,55555,66666

11111,222,33333,4444444,55,6 → (これはそのまま)

,,,,,,,,,,11111　→　,,,,,

この正規表現を作ってみたんですが

s/([^,]*)(,[^,]*)(,[^,]*)(,[^,]*)(,[^,]*)(,[^,]*).*/$1$2$3$4$5$6/;

もっとスマートな書き方ありませんか？

**nobodyさん** · 02/10/06 01:49

s/([^,]*,[^,]*,[^,]*,[^,]*,[^,]*,[^,]*.*/$1/;

**nobodyさん** · 02/10/06 01:49

括弧を消しすぎた
s/([^,]*,[^,]*,[^,]*,[^,]*,[^,]*,[^,]*).*/$1/;

**nobodyさん** · 02/10/06 02:10

s/^((?:[^,]*,){5}[^,]*).*$/$1/;

**nobodyさん** · 02/10/06 02:12

chop($st = $1) if $st =~ /^((.*?,){6})/;
とか。

**名無しさん＠Ｍｅａｄｏｗ** · 02/10/06 02:15

>>674
くそ、さき越された。早く寝ろてめえら。

**hmk** · 02/10/06 02:15

>>674
キャ～カッコイイ！！

**nobodyさん** · 02/10/06 02:18

>>674 の案を頂き。thx

**名無しさん＠Ｍｅａｄｏｗ** · 02/10/06 02:35

>>674
しかしだな、
$st =~ s/^((.*?,){6}).*/$1/;
の方が普通やね。やっぱ、俺の方が（略

**nobodyさん** · 02/10/06 02:41

>>678
末尾に残るカンマの処理はどうお考えで?

**名無しさん＠Ｍｅａｄｏｗ** · 02/10/06 02:53

>>679
む、やっぱ、あんた=>>674?の方が（略

**nobodyさん** · 02/10/06 02:57

サクラエディタで、JSP／ASPのスクリプト部分を色指定しようと試しているのですが巧くいきません。
<%.*%>でオーケーとか軽く考えていたのですが、.は改行文字にはマッチしないのですね。
改行文字も含めてとにかく全部マッチさせるにはどうしたらいいのでしょうか？

＃サクラスレではレスが付きませんでした(T_T)

**nobodyさん** · 02/10/06 03:16

>>681
改行コードに色は付きません。
改行コードの正規表現は、
windows: \r\n, unix: \n, Mac]\r
です。

**nobodyさん** · 02/10/06 03:17

あ、×Mac]\r -> ○Mac: \r

**nobodyさん** · 02/10/06 03:25

htmlで改行コードを表示するんなら、６８２、６８３で書いた
ものに代替文字を当て、そいつに色タグを付けるようにしる。

**nobodyさん** · 02/10/06 03:53

>>682
ごめんなさい、ちょっと書き方が悪かったですね。
<%.*%>と指定しても、<%と%>に挟まれた文字に色がつかないんです。
それで、改行が挟まっているのでマッチしないのか、と思い>>681を書いたのですが……

私、根本的に間違っているのでしょうか？(^^;

**nobodyさん** · 02/10/06 04:07

>>684
そいじゃ、「改行文字も含めてとにかく全部マッチさせる」じゃなくって
「改行文字を除いた部分にマッチさせる」じゃねーかよ。日本語大丈夫？
<%.*%>の中に改行が入っているかどうかなんて見れば分かるだろ。
それが確かに原因だと確かめられてから質問しろ。改行を挟む文字列を
連結するにはどうすればいいですかってな。
質問の仕方じゃ、どっかでレスが付かなかったのも当然だよ。

**nobodyさん** · 02/10/06 04:31

/<%.*%>/s;
とかいうレベルの話じゃないの

**nobodyさん** · 02/10/06 04:34

質問の仕方じゃ→こんな質問の仕方じゃ
我はもう寝る

**nobodyさん** · 02/10/06 04:35

ってPerlじゃないのか

**nobodyさん** · 02/10/13 00:14

Perlの正規表現で
0から始まらない数字だけの文字列
ってどう表現すればいいですか？
※001とか0930とかは駄目ってことです。

**nobodyさん** · 02/10/13 01:08

/^[1-9]\d*$/

**690** · 02/10/13 01:19

↑あーなるほど！
ありがとう！