正規表現道場@2ch

**ヽ(´▽｀)ノ** · 2001/07/26(木) 09:03

以外と毛嫌いして居る人も多そうな正規表現、
でもperlを使いのなす上で避けて通れない道だったりするかもです。
そこで、スクラップブック的に目に止まったカッコイイ正規表現を
書き留めておこうと言うスレッドです。
質問する時は言語と、得たい結果をなるべく詳しく書いてね。

取り合えず僕が知ってる有用なリンクです。
http://www.din.or.jp/~ohzaki/perl.htm
http://www.kt.rim.or.jp/~kbk/regex/regex.html

もっとｲｲ（・∀・）リンクは>>2-10さん辺りが書いてくれるカモ････

**”管理”人042** · 02/08/03 02:59

>>520 さんは、スレッド【Ruby】RubyでCGI http://pc.2ch.net/test/read.cgi/php/988948655
とのマルチポストです。
速やかに回線を切って首を吊って下さい。

**nobodyさん** · 02/08/05 17:55

チョッチュネー、下がり過ぎッチュネー！

**nobodyさん** · 02/08/12 04:22

なにも言うな！あげとく。

**nobodyさん** · 02/08/16 21:56

すみません、「<」と「>」の間に挟まれる文字(半角英数字、記号含む)を抜き出す
というのはどうすればいいんでしょう？

**nobodyさん** · 02/08/16 22:11

>>524
ｶﾞｲｼｭﾂ

**nobodyたん** · 02/08/19 12:47

@hoge = ($str =~ /<(.*?)>/g);

**nobodyさん** · 02/08/20 11:47

0001海
0003水着
0005スイカ
0002花火
・
・
・

というデータが入った配列があって
これをGrepで
0003以上(0003水着 0005スイカ)のデータを
抽出したいのですが
どのように記述してよいのかわかりません。
>= とか <=　とかは正規表現では使えないですよね？

全件ループしてIF文で抽出してもよいのですが
Grepの方が速い？と思い質問させていただきました。お助け下さい。

**nobodyさん** · 02/08/20 11:55

@result= grep($_ gt '0003', <DATA>);

**528** · 02/08/20 12:00

間違った
@result= grep($_ ge '0003', <DATA>);

**nobodyさん** · 02/08/20 17:19

>>528さん
おぅ！！！！！完璧です！！！感謝！！！！
わかると簡単だけど、最高に感謝です！！

あなたに幸がある事を祈ります！！！
本当にありがとうございました。<(..)>

**nobodyさん** · 02/08/26 16:09

$b =(?=.*犬)(?=.*柴):

ループ開始
　if ($a ~ /$b/){処理}
ループ終了

ある配列をループさせて $a　にその値を入れて
数千回ループさせて検索しているのですが
ものすごく遅いです。

やりたい事は $aの文字列に　ある文字(複数)があるかを高速に
検索したいです

もっと高速に検索する方法はないでしょうか。
ちなみに $b の部分は検索条件が何個でも対応できるようにしたいです。
どなたかお願いします、、、

**nobodyさん** · 02/08/26 16:36

>>531
index連呼。

**nobodyさん** · 02/08/27 09:53

>>532さん
index連呼ですか?
すいません。どのような意味なのでしょうか。。。

条件の数だけループして普通通り検索すると言うことでしょうか。

**533** · 02/08/27 09:58

すいません。
文字列検索の　index(STR,SUBSTR)　ですね。
やはり単純にそれがよいのでしょうか。

index連呼で検索するのと
=~ // 連呼で検索するのは理論上はどちらが早いのでしょうか。

**nobodyさん** · 02/08/27 11:17

>>534
まず試せば？

$a = 'sadfasfj犬okewrworwa';#含まれない
$aa = 'sadf柴asfj犬okewrworwa';#含まれる

use Benchmark;
timethese(300000,{
1=>q{if ($a =~ /(?=.*犬)(?=.*柴)/){$c = 0;}},
2=>q{if ($aa =~ /(?=.*犬)(?=.*柴)/){$c = 0;}},
3=>q{if(index($a,'犬') >= 0 && index($a,'柴') >= 0){$c = 0;}},
4=>q{if(index($aa,'犬') >= 0 && index($aa,'柴') >= 0){$c = 0;}}
});

#Benchmark: timing 300000 iterations of 1, 2, 3, 4...
#1: 13 wallclock secs (12.53 usr + 0.00 sys = 12.53 CPU) @ 23944.45/s (n=300000)
#2: 2 wallclock secs ( 2.60 usr + 0.00 sys = 2.60 CPU) @ 115251.63/s (n=300000)
#3: 1 wallclock secs ( 0.51 usr + 0.00 sys = 0.51 CPU) @ 588235.29/s (n=300000)
#4: 0 wallclock secs ( 0.97 usr + 0.00 sys = 0.97 CPU) @ 308959.84/s (n=300000)

**nobodyさん** · 02/08/27 11:36

http://www2.freenet.jp/muneo/index.htm
超悪徳会社　Ｊ－ＣＯＭ（ジェイコム）の定期点検を大儀名文とした
勧誘営業に困っていませんか？
点検と言いつつ何もせず、結局はインターネット等の契約をして欲しい
の話へもっていく腐れ外道集団。
断ると「テレビの映りが悪くなっても知らんぞ」と脅迫メッセージをぶつけてくる。
苦情は総務省へ直接電話をすること。
マスコミはケーブルＴＶとは仲がいいので、テレビで取り上げることはまず無い。
2ちゃんねるパワーでジェイコムを追い詰めよう！！

優香 · 02/08/27 18:39

の記述の中で『090』を禁止語句にするにはどうしたらいいのでしょう？？

elsif ($email !~ /[\w\.\-\&]+\@[\w\.\-\&]+\.[\w\.\-\&]/){&error("メールアドレスが間違っています。");}

**nobodyたん** · 02/08/27 20:01

とりあえず理解可能な日本語で書くように。

**呼んだ？** · 02/08/27 20:03

　＿γ⌒⌒ヽ
　＼＼ノハ)ヽ)∩
　　(○) ´∀｀ﾉ丿　／￣￣￣￣
　　⊂二ｙ / 　　＜　ﾏﾙﾁですー。
　　　 /　＿二⊃ 　＼＿＿＿＿
　⊂二ノ

**nobodyさん** · 02/08/27 21:39

>>537
まるちぃ～ん

**はにゃーん☆** · 02/08/28 19:01

From: =?ISO-2022-JP?B?xxxxxxxxxxxxx=?= <xxxxx@xxxxxxx.xxx>
From: xxxxx@xxxxxxx.xxx
上記のどちらの時でもメールアドレスだけを抜き出す方法を教えてください。
また、メールのヘッダー内の「From:」や「To:」は
これ以外の形で送られるときはありますでしょうか？
例えば
From: <xxxxx@xxxxxxx.xxx> =?ISO-2022-JP?B?xxxxxxxxxxxxx=?=
の様になっていることなど...
どのような形でも確実に（無理で有ればほぼ確実に）抜き出す方法を教えてください。
よろしくお願いします。
色々と試していたのですが
/^From: .*?([\w\+\-\.]+@[\w\+\-]+\.[\w\+\.\-]+).*$/
これで思い通りに抜けるのですが問題有りますでしょうか？

**はにゃーん☆** · 02/08/28 19:15

大崎さんのperlメモを拝見させていただいたのですが、
下記のようでよいのでしょうか？
$mail_regex =
q{(?:[^(\040)<>@,;:".\\\\\[\]\000-\037\x80-\xff]+(?![^(\040)<>@,;:".\\\\} .
q{\[\]\000-\037\x80-\xff])|"[^\\\\\x80-\xff\n\015"]*(?:\\\\[^\x80-\xff][} .
q{^\\\\\x80-\xff\n\015"]*)*")(?:\.(?:[^(\040)<>@,;:".\\\\\[\]\000-\037\x} .
q{80-\xff]+(?![^(\040)<>@,;:".\\\\\[\]\000-\037\x80-\xff])|"[^\\\\\x80-} .
q{\xff\n\015"]*(?:\\\\[^\x80-\xff][^\\\\\x80-\xff\n\015"]*)*"))*@(?:[^(} .
q{\040)<>@,;:".\\\\\[\]\000-\037\x80-\xff]+(?![^(\040)<>@,;:".\\\\\[\]\0} .
q{00-\037\x80-\xff])|\[(?:[^\\\\\x80-\xff\n\015\[\]]|\\\\[^\x80-\xff])*} .
q{\])(?:\.(?:[^(\040)<>@,;:".\\\\\[\]\000-\037\x80-\xff]+(?![^(\040)<>@,} .
q{;:".\\\\\[\]\000-\037\x80-\xff])|\[(?:[^\\\\\x80-\xff\n\015\[\]]|\\\\[} .
q{^\x80-\xff])*\]))*};
$hoge = 'From: =?ISO-2022-JP?B?xxxxxxxxxxxxx=?= <xxxxx@xxxxxxx.xxx>';
$hoge =~ s/^From: .*?($mail_regex).*$/$mail=$1/e;

**nobodyさん** · 02/08/28 21:22

>>541
多少削れる部分があると思いますが、特に問題は無い様に思います。

>>542
質問内容が解りませんが。
正規表現道場ですから、マッタりと待てば誰かが解析してくれるかも知れません。

**nobodyさん** · 02/08/29 00:30

>>541
（　´,_ゝ`）ﾌﾟｯ　　　　　　

**nobodyさん** · 02/08/29 12:19

>>544 は何しにこのスレに来てるのデスカ

**困ったﾔｼ** · 02/08/29 14:55

あのぅ
すいませんが…
正規表現で困っています
『file "～』か『FILE "～』っていう
キーワードで検索したいんですけど
おながいしますた

_ · 02/08/29 14:57

>>546
/『file "～』|『FILE "～』/;

**困ったﾔｼ** · 02/08/29 15:01

早速のレスですいやせんが
訂正と補足します。
grepで
from や FROM の次に半角の空白と"以外の
列を探したいのです
/[^from "]|[^FROM "]/;
では無理っぽいですた

**nobodyさん** · 02/08/29 15:04

>>548
/form[^ "]/i

**困ったﾔｼ** · 02/08/29 15:12

549さん
早速のレスはありがたや
なのですが…

from が form になってます…

出来ませんでした。
補足します秀丸でのgrepです

**困ったﾔｼ** · 02/08/29 15:38

/from [^"]|FROM [^"]/;
でもだめれす…
お助けを

**nobodyさん** · 02/08/29 15:46

秀丸なんて使ったことないよ。作ったﾔｼに聞けよ。秀丸男だっけ？

っつーか、VIM使えよ

**困ったﾔｼ** · 02/08/29 15:47

VIM？

**困ったﾔｼ** · 02/08/29 16:00

教えてくださいヴぃあいえむを

◆JAPH9PWA · 02/08/29 16:34

ほんとに困ったﾔｼだね
fileとかformとかfromとか…とりあえず言ってる意味がよくわからないので
どういうパターンなのか他人に分かるように説明してもらわないと
あと、秀丸のヘルプくらい読んでね

**困ったﾔｼ** · 02/08/29 16:38

はいどうも困ったﾔｼです
fromとﾊﾝｶｸの空白とﾀﾞﾌﾞﾙｸｫｰﾃｰｼｮﾝ以外の文字のキーワード
冷)from う
冷)FROM あ
なんかにひっかかってほしいんでしゅ
どうですかぁ？お客さん

**nobodyさん** · 02/08/29 16:48

あのぅ
すいませんが…
正規表現で困っています
『困ったﾔｼ』を削除したいんですけど
s/『困ったﾔｼ』*?$//g;
では無理っぽいですた

**名無しさん＠Ｍｅａｄｏｗ** · 02/08/29 17:12

>>556
[from|FROM] [^"]

**名無しさん＠Ｍｅａｄｏｗ** · 02/08/29 17:19

>>557
s/『困ったﾔｼ』//g;
*?$って書くと、行末の『困ったﾔｼ』にしか対応線。

**nobodyさん** · 02/08/29 17:51

>>558
(from|FROM)[^"] ﾃﾞｼｮ

**nobodyさん** · 02/08/29 17:53

>>560
（　´,_ゝ`）ﾌﾟｯ　　　

**困ったﾔｼ** · 02/08/29 17:56

ｷﾀ━━━━━(ﾟ∀ﾟ)━━━━━!!!!!
(from |FROM )[^"]
で逝きますた

**nobodyさん** · 02/08/29 18:13

>>561
（　´,_ゝ`）ﾌﾟｯ

**560** · 02/08/29 18:21

その
（　´,_ゝ`）ﾌﾟｯ
てやつやめてくれませんか。お願いします。
間違いがあるなら指摘しテク浅い。

**nobodyさん** · 02/08/29 18:24

（　´,_ゝ`）ﾌﾟｯ　だってさぁ、半角スペースがどこにも入ってないから

**nobodyさん** · 02/08/29 18:31

（　´,_ゝ`）ﾌｰﾝ

**困ったﾔｼ** · 02/08/29 18:32

やめなよう
揉めごとはぁ。
(´Д｀)ﾊｧﾊｧ

**困ったﾔｼ** · 02/08/29 18:45

(´Д｀)ﾊｧﾊｧ

**nobodyさん** · 02/08/29 18:47

まぁ、質問者当人が喜んでいるので万事解決って事で。

**いらすま** · 02/08/30 21:33

性器表現

男性器→　おちんちん
女性器→　おまんこ

**nobodyさん** · 02/08/30 22:21

で？

**nobodyさん** · 02/08/30 22:29

URLで使用できる文字を教え頂きたいのですが、
英数字と;/?:@&=+$,-_.!~*'()] だと思うのですが、検索しても
見つかりませんでしたので・・・

**nobodyさん** · 02/08/30 23:09

**名無しさん＠Ｍｅａｄｏｗ** · 02/08/30 23:18

>>572

perldoc -q url

**nobodyさん** · 02/08/31 07:19

http://europa.ath.cx/content/computers/docs/o'reilly/book/

**nobodyさん** · 02/09/01 16:35

>>572
http://openlab.ring.gr.jp/k16/htmllint/explain.html#excluded-url

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/04 03:47

jperlも[^２バイト文字]の場合、1バイト単位で処理するんですね。
sjisでは、全角記号は、ほとんど（全部？）\x81から始まっているので、
/[^※]+/とすると全角記号が入っている場合は合致しないんです。
この理解で合っていますか。

◆dKHETt0c · 02/09/04 13:06

てすと

**nobodyたん** · 02/09/04 13:17

>>572
ftp://ftp.iij.ad.jp/pub/rfc/rfc2396.txt
http://www.japu.org/tmp/http.c

**nobodyさん** · 02/09/05 01:39

２ちゃんねるのＩＤはこれでいいですか？
^[A-Za-z0-9/]{8}$

PHPなんですけど

**nobodyさん** · 02/09/05 12:34

「＞」で始まってて「;」で終わっていたら、

「＞」から「;」の前までの文字の色を青くして
「;」は消去したいんですが、

$hoge =~ s/(^＞[.]);/$1/ig;

ではダメみたいです。

全角文字がいけないのか、半角のセミコロンはつかえないのか、
そもそもなにか間違ってるのかわかりません。

だれか正解を教えてください。

**581** · 02/09/05 12:39

いろいろ間違いを見つけて

$hoge =~ s/(＞.+);/$1<\/font>/ig;

ここまで行きました。

まだ間違ってますか？

**nobodyさん** · 02/09/05 12:55

>>582
英文字使ってないならオプションのiはいらんだろ。
.+? か [^;]+ にしないと＞の後にセミコロンが複数あった時
最後のセミコロンまでの全ての文字がマッチしちゃうぞ。

$hoge =~ s/(＞[^;]+);/$1<\/font>/g;

あとタグを扱う場合は区切り文字変えた方が
/のエスケープ要らなくなって見やすい。
$hoge =~ s|(＞[^;]+);|$1|g;

◆4XfSMGTg · 02/09/05 12:56

>>580-582
（　´,_ゝ`）ﾌﾟｯ

**581** · 02/09/05 13:46

まだだめです
＞あああ　＞おおお;

ってやると最初の＞から;まで青くなってしまいます。
＞おおお;
だけ青くしたいんです。

**nobodyさん** · 02/09/05 13:52

>>585
あとから条件足すなボケ

**581** · 02/09/05 13:54

$body =~ s/(＞[^;^＞]+);/$1<\/font>/g;
すいません。わすれてました
でもこれで大丈夫のようです。

なぜか改行はいっても大丈夫（色がかわらない）のですが、なんででしょうか？
べつに変わらなくてよいのでいいんですけども、理由が気になります。

**nobodyさん** · 02/09/05 14:06

while (<>)｛
$_ =~ s/(PAT)/$1/g;
}
とか
for (@foo) {
$_ =~ s/(PAT)/$1/g;
}
してるんなら、$_には読みこんだ一行しか入ってないから。
$/ = ''でもしとけ。

つか、全然正規表現じゃねーだろ。青らくだかって勉強しろボケ。

**nobodyさん** · 02/09/05 14:20

>>588
あふぉですか？

**nobodyさん** · 02/09/05 14:21

>>587
それじゃダメ。
＞のコードは\x81\x84なので
[^;＞]は[^;\x81\x84]と等価。ちなみに^は最初に一つ置くだけでいい。
つまり;か81か84が出てきたら全て否定されるので。81か84を含むコードを
持つ文字がある場合にマッチしなくなる。

こうしれ。
$hoge =~ s|(＞(?![^;]+＞)[^;]+);|$1|g;

**581** · 02/09/05 14:24

>>590
ありがとう！

なぜか「→」とかの記号が中に入ると
ダメになっちゃったんだよ。

そういうことか。マジでありがとう！
ちなみに改行は大丈夫でした。記号が入っていたようです。すみませんでした。

**581** · 02/09/05 14:28

>>590
・・・なにもマッチしないんですけど・・・。

なんでだろ。

**nobodyさん** · 02/09/05 14:36

>>592
上の例だとマッチするが…
下記に確認に使ったソースを載せとく。

他に何か言い忘れてる事ある？
マッチさせたくてさせられなかった文字列はどんな？

#! /usr/local/bin/perl

print "Content-type: text/plain\n\n";

$hoge = '＞あああ　＞おおお;';
$hoge =~ s|(＞(?![^;]+＞)[^;]+);|$1|g;

print "$hoge";

**581** · 02/09/05 14:40

>>592
すいません
バッチリでした。
ちょっとぜんぜん関係ないところでミスってました。

本当に申し訳ありませんが、もうひとつだけ条件追加させてください。

＞と;の間で改行したらマッチしないようにしたいです。
この場合の改行は なので改行コードではないです。
だから簡単だと思ったのですが、「 」という文字列を丸ごと指定する方法が
わかりません。

こまった。

**nobodyさん** · 02/09/05 14:53

>>594
$hoge =~ s%(＞(?![^;]*(?:＞| ))[^;]*);%$1%ig;

どこに が入ってるかわかんないので+を*に変えといた。
ので、＞;でもマッチしてしまうが。

**581** · 02/09/05 15:11

まじで感謝です
＞;でマッチするのはぜんぜんOKです。

ありがとうございました！

**nobodyさん** · 02/09/05 16:03

2バイト目が81の文字の後に1バイト目が84の文字が続くと
＞の部分にマッチしてしまう罠。

**nobodyさん** · 02/09/05 17:50

>>597
（　´,_ゝ`）ﾌﾟｯアサハカさんですね

**nobodyさん** · 02/09/14 03:35

$QUERY{'hd'}が「あ」だったら
あほ、あへへ、とかにヒットするようにしたいんですが、やり方わかりません。
if ($DB[$key] =~ /^$QUERY{'hd'}.*/) ～
とかやってみました。ぜんぜんだめです。「{」は「\{」って書くんですか？
やってみたけどだめでした。どやってやったらいいですか。

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/14 08:27

>>599
条件をもっと正確に書きましょう
「あほ、あへへ、とか」って？
$DB[$key]が「あ」で始まる任意の文字列にマッチする場合ということなら
if ($DB[$key] =~ /^$QUERY{'hd'}.*/) ～
これでええです。
エラーをもっと正確に書きましょう
「ぜんぜんだめです。」って？
エラーメッセージを見ればほとんどのことは分かるんです

**nobodyさん** · 02/09/14 16:49

^ はいらないんじゃない？

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/14 21:28

>>601
$ perl -e '$var="abc"; if ($var=~/b/){print "601 is an aho!\n";}'
601 is an aho!

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/14 21:30

$ perl -e '$var="abc"; if ($var=~/^b/){print "601 is an aho!\n";} else {print "
601 is God!\n";}'
601 is God!

**nobodyさん** · 02/09/15 00:00

>>602 がah(略

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/15 07:34

>>602, >>603はGod
>>604はdoah（略

**nobodyさん** · 02/09/16 22:01

文字列置換で置換後に\1を参照した直後に1を挿入したいのですが、\11と書いたら
だめでした。どうやって書けばいいですか。よろしくお願いします。
$error_flags = "0000000000000";
$error_flags =~ s/^(\d{1})\d{1}(\d{11})$/\11\2/g if ($QUERY{'form_v2'} eq "");
$error_flags =~ s/^(\d{2})\d{1}(\d{10})$/\11\2/g if ($QUERY{'form_v3'} eq "");

**nobodyさん** · 02/09/16 22:10

${1}1$2

**nobodyさん** · 02/09/16 22:16

おお、なるほど。そんな書き方でしたか。やってみます。
どうもありがとうございます。

**nobodyさん** · 02/09/17 02:24

３文字の数字のみにマッチをしているのですが、できません。

if($word=~/^[0..9]{3,3}$/){ print"ok";}

\dなど使わないでこの形式で正して下さい。

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/17 02:42

>>609
相当の初心者さんですね
[0-9]{3}

**nobodyさん** · 02/09/17 03:51

>>610
できた。できた。ありがとうございます。{3,3}でもできた。

**nobodyさん** · 02/09/17 08:17

>>611
>{3,3}でもできた。
そりゃできるだろうけど、「3文字の数字」を探すときにわざわざ
「3文字以上3文字以下の数字」って書くのはちょっとね。

**nobodyさん** · 02/09/17 09:33

少し前に、Web製作板のJavaScriptスレでも同じ質問があったな…

**nobodyさん** · 02/09/17 11:32

>>610
なかなかの初心者さんですね
\d\d\d

**nobodyさん** · 02/09/17 12:25

>>614
な（略）
\d{3}

**名無しさん＠Ｍｅａｄｏｗ** · 02/09/17 12:33

>>614, >>615
不合格！！
よく問題を読みましょう.
\dを使わずにやれとある

**nobodyさん** · 02/09/17 12:37

なんてこっﾀ━━━━━(ﾟ∀ﾟ)━━━━━ｲ!!!!

**nobodyさん** · 02/09/18 11:38

[0-9][0-9][0-9]

**nobodyさん** · 02/09/18 18:06

[0123456789][0123456789][0123456789]

**nobodyさん** · 02/09/22 08:08

初心者ですいません。

12345 や 67890 や at41n や hyrdf985 や s4r などの文字列を

12 67 at hy s4

のように先頭の２文字だけに変換させるのはどうしたらよいでしょうー。
substr使えやｺﾞﾙｧといわずに、正規表現でやってみたいのです。
何文字あるのかわからないため、...$ などは使えないし。
s/^..// なんてやると２文字だけ消えてしまうし、、
$_ = '1234567';
/(^..)/;
ってやれば、$_ = $1 でできるかもしれないけど、こんな手間かけるのもアレやし、、

s/先頭の２文字でない文字//;

とかやりたいの。