正規表現道場@2ch

**ヽ(´▽｀)ノ** · 2001/07/26(木) 09:03

以外と毛嫌いして居る人も多そうな正規表現、
でもperlを使いのなす上で避けて通れない道だったりするかもです。
そこで、スクラップブック的に目に止まったカッコイイ正規表現を
書き留めておこうと言うスレッドです。
質問する時は言語と、得たい結果をなるべく詳しく書いてね。

取り合えず僕が知ってる有用なリンクです。
http://www.din.or.jp/~ohzaki/perl.htm
http://www.kt.rim.or.jp/~kbk/regex/regex.html

もっとｲｲ（・∀・）リンクは>>2-10さん辺りが書いてくれるカモ････

02/04/24 07:10

>>337
&hearts;のような実体参照はaにはならずaheartsaになる。

02/04/24 07:11

340は間違えた。

**nobodyさん** · 02/04/24 15:36

>>340
実体参照でなく絵文字のようなコードは。
CGIぽん
ttp://specters.net/cgipon/labo/it_emoji.html

**nobodyさん** · 02/04/24 18:26

部分文字列としてabとbaを同じ数だけ含むような文字列にマッチする正規表現を教えてください。

**nobodyさん** · 02/04/24 20:08

「abとbaを同じ数だけ含むような文字列」とやらを教えてください。

**nobodyさん** · 02/04/25 06:16

abaとかabaaaabaaです。

**nobodyさん** · 02/04/25 07:50

>>346
my $str = 'abaaaabaa';
my (@ab, @ba);
print 'Matched' if (@ab = $str =~ /ab/g) == (@ba = $str =~ /ba/g);

"aba" みたいにマッチ箇所がオーバーラップしていても良いのなら上のやつで．
正規表現一発でいけるのなら漏れも知りたい．

マッチ箇所のオーバーラップが許されていなくて
"ababab" でも "ab a ba b" と分けられるからマッチだ！　とかいう難問かとｵﾓﾀﾖ…

**nobodyさん** · 02/05/02 00:59

>>347
> マッチ箇所のオーバーラップが許されていなくて
> "ababab" でも "ab a ba b" と分けられるからマッチだ！　とかいう難問かとｵﾓﾀﾖ…

これって出来るの?

**nobodyさん** · 02/05/03 01:20

オレにはパターンマッチ・置換を正規表現でできなかったためしがない。
なんでもオレに聞きやがれ。適切な答えをはじき出してオマエに叩きつけて
やるゼ！

きっ、きまったぁ！

**nobodyさん** · 02/05/03 11:30

ばーｋぁいｌ７いｌ７いｌ７いｌ７いｌ７い
ｌ７いｌ７いｌ７いｌ７いｌ７いｌ７いｌ７ｋｙそｐｒ
＠いｈｗ４５えｓっｙｙｙｙｙｙｙｙｙｂｈんｔｒｓ５じゅｈじゅ
ｈじゅｈじゅｈじゅｈじゅｈじゅｈじゅｈじゅｈじゅｈじゅｈじゅｈ
ゅｈじゅｈじゅｙ２３４ｒｔｈじゅｒｔｈｊｒｓｔｗ４５ｈｊｈｊｔ５
ｈｊｔ５３４６
コテハンは死ね！

**nobodyさん** · 02/05/09 06:02

すいません、perl で URL の表記を区切って使用したいのですが、
正規表現の理解が浅く、まだ上手くできません。
存在しないサービスや、表記の規則違反はあとで考えるとして、
どのようなパターンで取り出せば良いものでしょうか。

my $rule = '([a-z]+)://([^:/@]*):?([^@:/]*)@?([\d\w._\-]*):?(\d*)([\d\w._/\-]*)\??([\w\d%=+&]*)';
my $url = 'http://user:pass@host.net:21/path/?key=value&query';
my ($service, $user, $pass, $host, $port, $path, $query) = $url =~ m/$rule/;

このままですと http://host.net/path/ のような user@pass が
全く省かれた場合に、前に詰まってしまいました。
読み難い上に無駄な指定も多いのですが、何方かご教授願えませんか？

**nobodyさん** · 02/05/09 20:53

>>351
他にも問題は山積しているんだけど、取り敢えず ? がどこまで有効なのか考えよう。
(～)@? → (～@)? とか。

**nobodyさん** · 02/05/09 21:37

>>352
有難う御座います。() の後に ? を置けるのは初めて知りました。
マッチするのは直前の単なる一文字ではなく、一パターンだったのですか。

# http URL の正規表現
# http://www.din.or.jp/~ohzaki/perl.htm#httpURL
ココを参考にしながら精進する事にします。

**531** · 02/05/09 21:57

御陰様でなんとか出来たような感じです。

(?:([a-z]+)://)? 　　　　　　# Service
(?:([^:/@]*)?:?([^@:/]*)?@)? # ID:PASS
([\d\w._\-]*) 　　　　　　　 # Host
(?::(\d*))? 　　　　　　　　 # Port
(?:([\d\w~._/%\-]*))? 　　　 # Path
(?:\??([\w\d%=+&]*))? 　　　 # Query

よく考えると皆さんが正規表現に凝ってらっしゃるのは
エラー (汚染) チェックも兼ね備えているからなんですかね。
私も早く安心して任せられるようになりたいです。

**nobodyさん** · 02/05/09 22:31

>>354
頑張ってなー。あと、質問する時はなるべくageてなー。

**351=353=354** · 02/05/09 23:50

>>355 ハイです (*´ー`*)

**351** · 02/05/10 23:19

>>354 自己レスですが、\w を [A-Za-z] だと勘違いしてました (汗

**nobodyさん** · 02/05/15 23:13

特定の文字列以降の文字を消すのはどうやるのですか？
厨質問ですみませんです。

**nobodyさん** · 02/05/16 00:44

>>358
$_ = 'Look-behindで文章中の特定文字列以降の文字を消すよ．';
s/(?<=特定文字列).*//s;

Perl 5.005 以前のバージョンならこっちで．
s/(特定文字列).*/$1/s;

**nobodyさん** · 02/05/16 01:26

>>359
どうも、ありがとうございます。
やってみます。

**nobodyさん** · 02/05/26 06:41

タグの中からパスを取り出そうとしているのですが
$str = "<a href=\"./hoge/hoge.html\"><img src=\"./hoge.jpg\"></a>";
if($str =~ /<a href="(.*?\.jpg)">/i){print $1."\n";}
とすると、何も出力されないはずなのに
./hoge/hoge.html"><img src="./hoge.jpg
と出力されてしまいます。どうすればよいのでしょうか？

**nobodyさん** · 02/05/26 07:59

>何も出力されないはずなのに
いや、.*?なら出力されると思うよ。(<a href="になってるのは間違い?)
./hoge.jpgが欲しいなら /<img src="([^"]+\.jpg)">/に変えてみれば？

**nobodyさん** · 02/05/26 08:22

>>362
いや、./hoge.jpgが欲しいんじゃなくて
aタグの""の中身にはマッチしないから何も出力しないようにしたいのですが。
(もちろんhtmlとかにすると出力されるようにはしたい)

**nobodyさん** · 02/05/26 23:36

>>361
/<a href="([^"'>]*?\.jpg)">/i

[^]の使い方でも勉強すればぁ？(ﾟДﾟ)

**nobodyさん** · 02/05/27 00:50

HTML::LinkExtorを使うのが正しいかと。

**nobodyさん** · 02/05/27 02:58

>>364
すいません。>>362の解答を応用してなんとかできした。

**nobody** · 02/06/24 01:33

すんません、
http://pc.2ch.net/test/read.cgi/php/1011460833/24
これお願いします

**nobodyさん** · 02/06/24 03:27

m{<a\s+[^>]*href=["]?((?:http://)?[-_.!~*'()a-zA-Z0-9;/?:\@&=+\$,%#]+)["]?[^>]*>([^<]+)</a>}i

**nobodyさん** · 02/06/24 03:39

>>367
Perlでド適当に書くとこんな感じ．

my ($href, $title);
while ($str =~ m{<a\s+(?:href\s*=\s*(["'])(.+?)\1|.)+?>(.+?)</a>}gis) {
($href, $title) = ($2, $3);
$href or next;
print "href: $href\ntitle: $3\n\n";
}

**nobodyさん** · 02/06/24 03:53

>>369
細かいけど、*(["'])(.+?)\1 の部分、
(.+?)だと空白入りません？

**367** · 02/06/24 04:33

>>368-370
ありがとうございます。
参考にして
$u="dsffds<a target=\"_self\" href=\"http://www.age.sage/\" name=\"lewraw\">age</a>aaa";
$pt="<a.*href=\"?(http://.[^\"[:space:]>]*).*>(.*)</a>";
if(ereg($pt,$u,$a))print_r($a);
みたいにしてみたらうまくいきました。
Array
(
[0] => <a target="_self" href="http://www.age.sage/" name="lewraw">age</a>
[1] => http://www.age.sage/
[2] => age
)
なんか問題があったら指摘よろしくです。

**nobodyさん** · 02/06/24 04:58

>>370
うん，空白どころか何でも入るよ．だからド適当なの．許して．

**nobodyさん** · 02/06/28 00:21

名前にtaroかjiroが含まれてたら云々、、ってので、
(taro|jiro)って書いたら動きませんでした。アホですか？

**nobodyさん** · 02/06/28 00:45

>>373
それしか情報を出さずに意図が伝わると思ってるならアホだな。

**nobodyさん** · 02/06/28 01:31

それしか、、と言われればそれしかなんですが、これ以上書いても意味ないかなと。。
一応書いておくと、PHPで、
ereg((taro|jiro),$name)
と書いてあります。アホですか？

**nobodyさん** · 02/06/28 03:26

>>373
アホだな。
コードはもちろん言語も書いてない。
どういうデータをマッチ対象にしてるのかも書いてない。
373の質問で答えが出ると本気で考えている？
それだけの状態で「taroかjiroにマッチさせるならそれでいいはずです。」
としか答えられないぞ。

ereg( 'taro|jiro', $name)
PHPは良く知らないけどその>>375のコードでエラー無く動くの？

**nobodyさん** · 02/06/28 20:10

上のコードだとエラーは起きないけどマッチしてくれません。
正規表現苦手でして、、すいません、、

**nobodyさん** · 02/06/29 03:23

PHP スレで聞けば？

俺、PHP全然解らないから、 ereg 関数の第１パラメーターが
正規表現もオッケーなのか解らないから答えようがない…

**nobodyさん** · 02/06/30 14:39

$hoge = tr/hoge//d;
こういう場合に、「hoge」に完全にマッチした場合のみ削除するにはどうすればいいのですか？

&r · 02/06/30 14:41

$hoge=~ s/hoge//g;

02/06/30 14:47

「100から150までの数字をチェックするには、"[#100:150]"」
これはProxomitronのヘルプにあったんですが、Perlでこれをやるにはどうすればいいのでしょうか？

02/06/30 14:50

あっ　1[0-5][0-9]という事ではなくて、
[38-523]のような・・・

&r · 02/06/30 14:57

この場合は正規表現を使う必要はなくて、演算子を使います。

100 <= $hoge && $hoge <= 150;

これが真を返すか偽を返すかです。

**nobodyさん** · 02/06/30 15:00

>>380
ありがとうですた

**382** · 02/06/30 15:05

うーん　なるほど。

**ororo** · 02/06/30 19:03

****************
/root
/hoge
/root/hoge
/root/some/hoge
****************

で、/rootと/hogeだけ取り出すのって
どーやったらよいんでしょうか？

/*だと、/も含まれちゃうんで。

/がでて、その後に/以外の文字列が続くものを
検出したいんですけど。

[^/]とか使う感じのイメージはあるんですが。

**ororo** · 02/06/30 19:16

あ、/が二回でてこないのでもいいかもです。

&r · 02/06/30 19:28

>387
@set= qw(/root /hoge /root/hoge /root/some/hoge);

for ( @set ){
/^(\/[^\/]+)/ && print $1,"\n";
}

**nobodyさん** · 02/06/30 19:45

386の別解。388のほうが効率よさげだけど。
@set= qw(/root /hoge /root/hoge /root/some/hoge);
@selected = grep { /^\/[^\/]+$/ } @set;

&r · 02/06/30 19:49

>389
末尾一致させないので $ が要らない罠

&r · 02/06/30 19:50

>389
マッチ部分の取り出しができていない罠

&r · 02/06/30 19:52

>389
書くんなら
@selected = map { /^(\/[^\/]+)/ ? $1 : () } @set;

&r · 02/06/30 20:06

あーっ、ひょっとしてわたしが勘違い？
よく読んだらリストの上２つを取り出すってことか。

てっきり勘違いして /root および /hoge ディレクトリを含むパス
のリストを抜き出すのかと思ってた。

**ororo** · 02/06/30 22:56

>393

>389の方の答えが望んでた答えっす。

ありがとうございますた。

**nobodyさん** · 02/07/01 01:29

>>389
ねね？ qw って何？

>>390-393 ウザイ。氏ね

**nobodyさん** · 02/07/01 01:44

>>395
ここで聞く前に調べろクズ！

**nobodyさん** · 02/07/01 05:32

>>389
@selected = grep m{^/[^/]+$}, @set;

せめてこれくらいの可読性は確保しよう。
grepにブロックを使うのは、どうしても必要な時だけにした方が
いいかもしれない。

**nobodyさん** · 02/07/01 15:54

>>396 ﾈﾀﾆﾏｼﾞﾚｽ（･∀･）ｶｺｲｲ!!

**nobodyさん** · 02/07/02 00:42

title>url って文字列があったとき、
title と url を切り分ける処理をするとします。
ただし、> と < と & と " あたりは &..; に置き換えられてるから
実際は title>；url を処理することに。

で、問題はバックスラッシュによるエスケープを導入するとき
どうしたらいいのかなんですが...

title\>；hoge>；url -> ( title\>；, url )

^(?:((?:\\.|.)+?)>；)?(.*)$

で出来なくてお手上げです。
どうしたらいいんでしょう…

**nobodyさん** · 02/07/02 00:55

>399
質問もまともに書けないのか？

**nobodyさん** · 02/07/02 00:59

>>399
意味不明

**nobodyさん** · 02/07/02 01:01

>>399
病気か？

**nobodyさん** · 02/07/02 01:55

>>399
あらてのアラシか？

**nobodyさん** · 02/07/03 15:23

>399-403
ジサクジエンデシタ

**ahaaann** · 02/07/03 17:36

ahaann

**nobodyさん** · 02/07/04 19:37

教えて下さい
　ログイン名をsageで登録しようとすると、すでに登録されていて
あと、sage1、sage34が登録可能です。みたいに、するにはどうすれば
宜しいのでしょうか？
お願い致します。

**nobodyさん** · 02/07/04 19:45

>>406
データベースをつかうかファイルにデータ保存してもっておくかすればいいじゃん。

**nobodyさん** · 02/07/04 19:47

>>406
あるかどうか調べて、あったらランダムに数字を付け足した文字を出せばいいんじゃない？

**nobodyさん** · 02/07/08 15:23

/((19(0[48]|[2468][048]|[13579][26])|20([02468][048]|[13579][26]))\/02\/29|(19|20)\d{2}\/((04|06|11)\/(0[1-9]|[12]\d|3[0])|(0[13578]|10|12)\/(0[1-9]|[12]\d|3[01])|(02\/(0[1-9]|1\d|2[0-8]))))/
YYYY/MM/DD 形式で、1900年から2099年まで処理可能な日付チェック。

**nobodyさん** · 02/07/08 15:38

わざわざ、正規表現で行う必要あるのかと…（略

**nobodyさん** · 02/07/08 22:10

たとえば、
１．$rei = abc?def?ghi? というのと、
２．$rei = abc?def?ghi というのがあるとして、

?が最後につくかつかないかを判別する方法って
なにかありますか？
それで、２の場合、
$rei = abc?def?ghi　を
$rei = abc?def?　と、最後のghiをカットする
のも知りたいです。

やってみたのは、
１．$rei =~ s/(\?)(ghi)(\?)(jklm)$/$1$2$3/g;
２．$rei =~ s/(\?)(ghi)(\?)(jklm)(\?)$/$1$2$3$4$5/g;
でした。
(ghi) や (jklm) のところを正規表現したいんですが、
何をあててやればいいんですか？
\w{0,} とかやってみたんですが、うまくいかなくて。

**nobodyさん** · 02/07/08 22:27

　if( /\?$/ )

　s/^(.*)\?(.+)$/$1\?/;

**nobodyさん** · 02/07/08 23:00

>>410
それはプログラム技術板で半年くらい前に見たやつだ。半ばネタとして作られたものだが、
要件は満たしている。

・・・・・・・・・・・遅いけど。

**nobodyさん** · 02/07/08 23:02

> 412
やってみます

**>>409** · 02/07/10 17:12

m!\d{4}/\d{2}/\d{2}!;
($year, $month, $day) = ($1, $2, $3);
next unless (($year >= 1900) and ($year <= 2099) and ($month > 0) and ($month <= 12) and ($day > 0) and ($day <= 31))

ま、>>409 はネタだと思うが。

**nobodyさん** · 02/07/10 23:27

HTTP::Request関数を使うとき、メソッドがPOSTの場合、

my $req = new HTTP::Request POST => $URL;
$req->content_type('application/x-www-form-urlencoded');
$req->content('match=www&errors=0');

って書いたけど、GETの場合は、

my $req = HTTP::Request->;new(GET => $URL;

だけでよい？

02/07/11 00:28

<BODY background="aaa.jpg" bgcolor="#000000">
ってあった場合""の中身だけ取り出すのはどうしたらいいでしょうか？
(つまりこの場合、aaa.jpgと#000000)

**nobodyさん** · 02/07/11 00:39

>>417
/"\w"/g;

◆K1SiC5MI · 02/07/11 01:38

>>417
/"([^"]+)"/g;

**417** · 02/07/11 02:41

どもです。/"\w+"/g　で出来ました

**nobodyさん** · 02/07/11 10:43

>>420
\wには.と#が含まれんが本当にできたのか？

**418** · 02/07/12 00:05

>>421
昨日書き込みしたあとから思ってた。
（あーこれ#とかはいらねーからだめだわ。でも書き直すのめんどくさいしいいか。）

**nobodyさん** · 02/07/12 08:54

/(^-^)/

**nobodyさん** · 02/07/13 01:14

s/>>423//;

**nobodyさん** · 02/07/14 00:00

s/424の人生//g;

02/07/14 01:01

s/425の将来/鬱/g;

**nobodyさん** · 02/07/14 05:32

$2ch =~ s/2ch/3ch/g;

**nobodyさん** · 02/07/14 12:17

s/>>428/俺/g;

**nobodyさん** · 02/07/14 15:59

$here =~s/^.*$/削除依頼/s;

**性器初心者** · 02/07/15 14:17

すんません。正規表現わかんないですー。
半角英数文字のパスワードのチェックをかけたくて，言語PHPなんですが。。。

echo ereg('([a-zA-Z0-9_])',"123=$");

結果は1と返ってきます。FALSEと評価してほしいのですが？
どなたかご指導くださいな。

**コギャル＆中高生** · 02/07/15 16:38

http://www1.ocn.ne.jp/~kado77/mimi/

お役立ちリンク集
必ず役立ちます

コギャルとＨ出来るサイトはここ
ヌキヌキ部屋へ直行便
↓
http://kado7.ug.to/wowo/

**nobodyさん** · 02/07/15 21:45

なんか最近、アクセス数を荒稼ぎするためにスレ違いのURLアドレスを
リンクさせてるﾔｼが目につくから、そのサーバ自体をDOSるのもこれ
たのし！

**ぽよぽようんこ** · 02/07/15 22:30

しつもんさせてちょ。
perl使ってます。
if ($line !~ /\w{3,12}/) {&error;}
ってやってます。僕的には英数3～12文字じゃなかったらエラーって意味のつもり
なのですがうまく行きません。下限は有効なんですが、上限12文字超えても
エラーが出ないんです。どこかおかしなところありますか？宜しくお願いします。

**nobodyさん** · 02/07/15 22:32

if ($line !~ /^\w{3,12}$/) {&error;}
先頭から行末までがないだろうが。

**ぽよぽようんこ** · 02/07/15 22:38

！！なんと！！
僕は1年以上もマッチングというものの使い方を間違えていました！
なぜ今までうまく行っていたんだろう。
取り合えず、どうもありがとうございました。大変助かりました。

**nobodyさん** · 02/07/15 22:46

>>433
文字列の中に埋もれてる連続英数字数を判定したいなら最短マッチで。
if ($line !~ /\w{3,12}?/) {&error;}

**ぽよぽようんこ** · 02/07/15 23:06

>>436
ｱﾌｫでつか？レベルが低過ぎるね！

**436じゃないよ** · 02/07/15 23:27

感じわる～

**ぽよぽようんこ(本物)** · 02/07/16 00:00

>>437　こらこら。人のステハン拾うな。
>>436　ありがとうございます。ていうか?って半年くらい使ってないから何なのか忘れちったよ。
とステハンの名誉を守ったり。何やってんだ俺。

**ぽよぽようんこ(本物)** · 02/07/16 00:06

以上、自作自演でしたー。