正規表現道場 Part2

**nobodyさん** · 2012/09/19(水) 18:58:43.51

【正規表現道場の掟】

・言語不問

・質問も大歓迎。使用言語を書くのを忘れずに。

正規表現と関係ない話・質問は他スレへどうぞ。

前スレ
正規表現道場
http://kohada.2ch.net/test/read.cgi/php/1168450843/

**nobodyさん** · 2012/09/20(木) 03:58:43.36

>>1乙

●過去スレ
正規表現道場@2ch
　http://pc.2ch.net/test/read.cgi/php/996105815/
正規表現道場@2ch Part2
　http://pc5.2ch.net/test/read.cgi/php/1038146241/
正規表現道場@2ch Part3 s/煽り|荒らし/あぼーん/g
　http://pc5.2ch.net/test/read.cgi/php/1069245758/
正規表現道場@2ch Part4
　http://pc8.2ch.net/test/read.cgi/php/1105930285/

●過去スレのテンプレにあった参考サイトたち
Perlメモ
　http://www.din.or.jp/~ohzaki/perl.htm
正規表現メモ
　http://www.kt.rim.or.jp/~kbk/regex/regex.html
Regex::Diagram.pm
　http://www.cc.rim.or.jp/~midorin/mad-p/RegexDiagram.html
正規表現
　http://www.cc.rim.or.jp/~midorin/mad-p/perl/benkyou/PRC2kRegex/
UNIX正規表現入門
　http://web.archive.org/web/20021219021503/http://www01.u-page.so-net.ne.jp/jc4/hiroyuki/rex_index.html
Regular Expression(Riue ちゃんの正規表現講座)
　http://www.sixnine.net/regexp/

ほとんどは↓のリンク集にまとまっています。
正規表現/文字コード最新リンク2005
　http://www2.famille.ne.jp/~akio1998/l_grep.html (Not Found)

**nobodyさん** · 2012/09/22(土) 03:58:02.23

　　　　　　　　　　　　　　　 |:::ﾊ:.:.:.:.:.:i:.:.:i.:.:i./.:.:／／メノ　左ｫ}::::ﾉ::ﾉﾉ
　　　　　　　　　　　　　　　　　　 |::::i:::';::::::::l､::i:::ﾊ:／,ｨﾁ爪'　　 {ﾋﾁ'!::ｲイ
　　　　　　　　　　　　　　　　 |ﾊ::::::ヾ::::ﾊ 'Ｖﾘﾞ´ {､込ｿ　　　゛″!:::i:.:l
　　　　　　　　　　　　　　 |:.::ﾄ､:.:.:ヾ:.ﾊｰi| 　　::::::::　　　〉　ﾉ::::i::.|
　　　　　　　　　　　　　　　　　 {:.:.ﾄ､ヾ.:.:.:ヾﾊ lﾄ､　　　　　_,　, ｲ:.:.:.:i.:ﾊ
　　　　　　　　　　　　　　　　ヾ::ヽゞ､＼.::.＼!!　ヽ､.　　　´ ／!.::!.:.i:.:!:.!:l 　　　>>1乙ぱい
　　　　　　　　　　　　　　　　　,　'" ヾ＼＼:::::::::k　　 /｀　ｰ ' ｀ﾒ'ﾘ:.:.ﾉ.ﾉ:ﾉﾉ
　　　　　　　　　　　／　　　川　リllＶハ. （　 i　｀＼ ,ｲｲ// //
　　　　　　　　　　　　／　　　　　　　 |ｌ￣｀ヽ　ﾉ　　　`ﾒ､
　　　　　　　　　 ,／　　　　　　　　　　　　{:}　　　　　｀ｰ'- ﾆ_
　　　　　　　 ,／　　　　　　　　　_∠ 　　 |ｌ　　　＼ ,　　　　　　＼
　　　　　　　　／　　　　　　 _ ,. イ´:　　　　 |ｌ　　　　　＼　　　　　　,λ
　　　　　　／　　 -‐‐‐-＜´　　 .!　　 /　　　 |ｌ　　　　　　　' ,　　 _,ィ'ンy}
　　　　〈　　　　　　＼　 .ﾉ｀ｰ斗rｪ,,_,_,_|ｌ　　　　　 ,.ｉr'彡イy-´ !
　　　　　｀ヽ､　　　　　　　　｀ ' ＜._ {jt=t-ｔ-ミ｀^Yｰrﾍr-彡'水k}　!：}　.ﾉ
　　　　　　　｀ｰ-　 .._　　　　　　　｀ -ヽ.　 l｀亠^{：i￣ {：ﾘ |ﾊ　ﾉﾉ／ﾉ
　　　　　　　 _,.　-‐ ' ￣　´￣｀ー- ､　　　＼｛{ 　｛：l 　 {：i ﾉ_,ィﾆ_ン´
　　　　　／/　　　　　　　　　　｀ヽ､＼＼　｛：l　　{∠ニｧ--'
　　　／　/　　　　　　　　　　　　　　　　　｀ヽミﾆ＞ｧ┴ '´
　　　/＼Ｖ|　　　　　　　　　　　　　　　　　／
　　./ 　　ヾ.､　　　　　　　　　　　　　　　　,.　' ´

**nobodyさん** · 2012/10/15(月) 10:43:51.98

>>2
正規表現最新リンク集2005
http://web.archive.org/web/20100410230942/http://www2.famille.ne.jp/~akio1998/l_grep.html

個人名載ってるしこのまま外しちゃってもいいかもしれない

**nobodyさん** · 2012/10/19(金) 12:38:26.99

過疎スレ状態になっているっぽいですが質問宜しいでしょうか？

**nobodyさん** · 2012/10/19(金) 12:44:45.04

>>1

**nobodyさん** · 2012/10/19(金) 19:53:20.37

質問は？

**nobodyさん** · 2012/10/30(火) 16:10:01.92

>>5の人とは別人ですが質問がありますのでお願いします

拒否したいワード例
・ばか
・ばっかやろー
・ばーか

掲示板の拒否ワード機能を使って上のような言葉を
　^(ばか|ばっか|ばーか)
このようにまとめているのですが、
もっと効率よくまとめられるような気がしています

　^ば(0または任意の1文字)か
以上のように、
まとめることは可能でしょうか？

**nobodyさん** · 2012/10/30(火) 17:54:51.44

ば.?か

ばいか（売価）とかも入るけどねー

**nobodyさん** · 2012/10/30(火) 21:28:35.04

～ばかり
ばっかり
ばんから

**nobodyさん** · 2012/10/31(水) 08:02:36.23

ばんかい
バイカム

こういうのは>>8の指定の方が間違いがないね

8 · 2012/10/31(水) 12:31:50.64

まさに、>>9のようにまとめるられる書式を知りたかったのです！が…
皆さんご指摘のことを読むと確かにおっしゃるとおりですよねー

ば.?か、のような書式で運用できるかできないか、
掲示板のログとにらめっこしてみることにします

ともあれ、お答えくださった皆さん、とても参考になり助かりました
ありがとうございました

**nobodyさん** · 2013/01/29(火) 08:17:24.91

せめて同じ文字はまとめるか
^(ば(か|っか|ーか))

**nobodyさん** · 2013/02/10(日) 11:51:32.02

パスワードの登録で
半角アルファベットと半角数字の組み合わせで８文字以上
という条件を考えてるんですが、以下じゃダメですよね？

preg_match('/^[a-zA-z0-9]{8,}$/', $s);

アルファベットと数字の組み合わせ（アルファベットも数字もどちらもある）とするには
どうしたら良いでしょうか？

**nobodyさん** · 2013/02/10(日) 12:46:13.25

>>14みたいな正規表現のちょっとしたテクニック集とかどっかにまとまってないかね？

**nobodyさん** · 2013/02/13(水) 23:30:20.10

/^(?=(.*\d[a-zA-Z].*)|(.*[a-zA-Z]\d.*))\w{8,}$/

数字英字　もしくは　英字数字という並びが存在する英数字8文字以上

**nobodyさん** · 2013/02/14(木) 00:13:02.40

>>16を1回チェックするのと、
>>14と「英字を含む」「数字を含む」の計3回チェックするのとで、どのくらい

ここまで書いたところで自分でいろいろ試してみた。
$s = '3066058kczgr9784685fwn874fos847fos8djtkcrzu9q58nzfc';
for($i=0; $i<1000000 && preg_match('/^(?=(.*\d[a-zA-Z].*)|(.*[a-zA-Z]\d.*))\w{8,}$/', $s); $i++){} //2.3948659897 sec.
for($i=0; $i<1000000 && preg_match('/^[a-zA-z0-9]{8,}$/', $s) && preg_match('/[a-zA-z]/', $s) && preg_match('/[0-9]/', $s); $i++){} //5.7406949997 sec.
for($i=0; $i<1000000 && preg_match('/^[a-zA-z0-9]{8,}$/', $s) && !preg_match('/^[0-9]+$/', $s); $i++){} //3.9960801601 sec.
for($i=0; $i<1000000 && 8<=strlen($s) && ctype_alnum($s) && !ctype_digit($s); $i++){} //2.2285568714 sec.
$s = '1';
for($i=0; $i<1000000 && preg_match('/^(?=(.*\d[a-zA-Z].*)|(.*[a-zA-Z]\d.*))\w{8,}$/', $s); $i++){} //0.0000748634 sec.
for($i=0; $i<1000000 && preg_match('/^[a-zA-z0-9]{8,}$/', $s) && preg_match('/[a-zA-z]/', $s) && preg_match('/[0-9]/', $s); $i++){} //0.0000240803 sec.
for($i=0; $i<1000000 && preg_match('/^[a-zA-z0-9]{8,}$/', $s) && !preg_match('/^[0-9]+$/', $s); $i++){} //0.0000209808 sec.
for($i=0; $i<1000000 && 8<=strlen($s) && ctype_alnum($s) && !ctype_digit($s); $i++){} //0.0000181198 sec.

おもしろかった。

**nobodyさん** · 2013/03/04(月) 01:35:07.40

>>13
これはひどい

**nobodyさん** · 2013/03/09(土) 22:12:30.87

^([a-z]|[A-Z]|[0-9]){8,}$

はダメ？

**nobodyさん** · 2013/03/09(土) 23:24:50.86

ダメ

**nobodyさん** · 2013/03/10(日) 23:50:57.56

>>19
大文字と小文字を区別したいってことなら

^(?=.*[A-Z])(?=.*[a-z])(?=.*[0-9])[A-Za-z0-9]{8,}$

でおｋ

**nobodyさん** · 2013/03/18(月) 20:02:10.97

すっごい初歩的だったらすまそ
http://www.rider-n.sakura.ne.jp/regexp/regexp.php
で試す限りはうまくいくんだけどPHP上でうまくいかない。

スクリプト　SJIS
マッチング文字列　SJIS
PHP内部文字エンコ　SJIS
の環境下で

【サッカー】xxxxx【野球】

で最初のサッカーだけをマッチングしたいので
/^【([^】])】/i
としているんだけど、サッカーの時はマッチしない。
【テニス】xxxxx【卓球】ならちゃんとテニスがマッチする。

なんで？(´・ω・｀)

**nobodyさん** · 2013/03/18(月) 20:21:31.67

>>22
それだとテニスもマッチしないはずだが
[^】] は「】」以外の1文字ってことになる
それとShift_JISなんて捨ててUTF-8使おうぜ

**nobodyさん** · 2013/03/18(月) 22:12:52.90

>>23
すません、[^】]+です。
SJISで何とか…

**nobodyさん** · 2013/03/19(火) 00:22:00.75

mb_regex_encoding("sjis");
mb_ereg ("^【([^】]+)】" ,$txt,$ret);

pregはSJIS使えません

**nobodyさん** · 2013/03/24(日) 00:53:34.57

>>22
文字列をアスキーコードに変換してから検索しろ

**nobodyさん** · 2013/05/16(木) 11:13:37.06

javascriptでの正規表現で質問があります。

/^(?:(?:http|https):\/\/(\w+:{0,1}\w*@)?(\S+)(:[0-9]+)?(\/|\/([\w#!:.?+=&%@!\-\/]))?)*$/

上記はURLをチェックする簡単な正規表現だと思うのですが
そのURLがRSSかどうかチェックする正規表現にしたいのです

RSSの拡張子は .rss .rdf .xml です。

URLの最後の拡張子にこの文字列が入ってるかチェック出来るようにしたいのですが
どうすればいいでしょうか？

お願いします。

**nobodyさん** · 2013/05/16(木) 11:28:59.91

最後をこれに差し替え
\.(rss|rdf|xml)$/

**nobodyさん** · 2013/05/16(木) 11:38:31.44

>>28
レスありがとうございます
ただこれに差し替えるだけだと

http://www.example.com/.rss

これも正常として判断されてしまうのですがどうしたら良いでしょうか？

よろしくお願いします。

**nobodyさん** · 2013/05/16(木) 11:47:36.80

[^\\/:,;*?"<>|]\.(rss|rdf|xml)$

**nobodyさん** · 2013/05/17(金) 09:33:25.55

>>30
お礼遅くなってすいません
ありがとうございます！
うまくいきました！

**nobodyさん** · 2013/07/20(土) NY:AN:NY.AN

PHPのpregでの正規表現について質問です。

<a href="http://www.test.jp/"; title="test"><img src="test.png" alt="ALT" title="TITLE" /></a>

上記のようなHTMLを正規表現でヒットさせ、

<li>TITLE</li>

に変換させたいのですが、正規表現ではどう表したらいいのでしょうか？

**nobodyさん** · 2013/07/21(日) NY:AN:NY.AN

保守

**nobodyさん** · 2013/07/25(木) NY:AN:NY.AN

正規表現で解決できるのではと思い、こちらで質問させてください。

"ver.2 test.Test"という文字列を"ver.2 test. Test"のように
ピリオドの次の文字が大文字のときに限り半角スペースを挿入したいのですが
良い方法はないでしょうか？

34 · 2013/07/25(木) NY:AN:NY.AN

>>34です。
正規表現のグループ化を用いることで解決できました。
安易に質問を投稿してしまい申し訳ございませんでした。

**nobodyさん** · 2013/07/25(木) NY:AN:NY.AN

せっかくなのでその正規表現を書いておきますねくらいの気持ちが必要だ。

**nobodyさん** · 2013/07/25(木) NY:AN:NY.AN

>>34
preg_replace('/\.(?=[A-Z])/','. ',$str);

**nobodyさん** · 2013/09/06(金) 20:12:17.12

>>32
見ての通り超手抜きだけど例の通りか属性値のダブルクォートが無いぐらいならこれで大丈夫

検索文字列: /^(.+<img.+title=\")(.+)(\" \/><\/a>)$/
置換文字列: <li>$2</li>
http://regex101.com/r/qI6aG4

> PHPのpregでの正規表現

実はPHP分からないんだけど↓みたいな感じ？ｗ

preg_replace("/^(.+<img.+title=\")(.+)(\" \/><\/a>)$/i", "<li>$2</li>", $input_lines);

**nobodyさん** · 2013/09/14(土) 18:05:14.35

質問です。
PHP5で
preg_match ("/.*'.*/s", $_POST["value"])
としたときにvalueに「'」があってもマッチしない場合があるらしいのですがどういう文字列の場合でしょうか？
preg_matchはPCRE関数でPerl互換です。マルチバイトに対応していないのでその辺りに落し穴があるのかなと思うのですが。

**nobodyさん** · 2013/09/14(土) 19:42:16.21

FireFoxでRSSリーダにFeedlyを使っています。
NGワードフィルターが正規表現なのですが教えて頂けないでしょうか。
"韓国"というキーワードをフィルタリングしたいです。

http://userscripts.org/scripts/show/172085

**nobodyさん** · 2013/09/15(日) 10:40:22.03

>>39
マッチしない場合があるとは思えないけど、一応マッチしない場合があると言った人に聞いてみれば？
まぁ、$_POST["value"]が送信されて来なければ話は別だけど・・

ちなみにそれは preg_match("/'/", $_POST["value"]) のようにシンプルに書くこともできる

**nobodyさん** · 2013/09/15(日) 10:43:39.46

>>40
使ったこと無いけど、"韓国"だったら完全一致なのでそのまま正規表現使わずに書けると思うけど

**nobodyさん** · 2013/09/15(日) 15:21:48.42

2ch専ブラにおける2chmateのデバッグ用文字列のみの書き込みをNGにしたいです

2chMate 0.8.5.6 dev/HTC/HTL21/4.1.1
2chMate 0.8.5.4/SHARP/SBM003SH/2.3.4

↑こんなやつです

一応専ブラはjanestyleということでどなたか教えていただけませんでしょうか

**nobodyさん** · 2013/09/16(月) 04:52:23.59

韓|トンスル|ニダ|

39 · 2013/09/16(月) 18:13:41.90

>>41
マッチしない場合は無いようでした。
phpの設定の問題でpreg_matchがマッチできずfalseを返す場合があるらしいです。

**nobodyさん** · 2013/09/19(木) 16:03:12.92

最近2ちゃんで同じ文字列を数行繰り返す荒らしがいますが

最近2ちゃんで同じ文字列を数行繰り返す荒らしがいますが

最近2ちゃんで同じ文字列を数行繰り返す荒らしがいますが

↑こんな感じです
改行を挟まない場合もあります

Janeでこれをあぼーんしたいんですが
同じ文字列が数行続いたかを調べられる正規表現はありませんか

**nobodyさん** · 2013/09/19(木) 19:40:04.05

>>46
1行文の2連投
http://thinkarc.blogspot.jp/2007/07/janeviewngex.html#NGEx_Contiguous_single-line

んでこれ以上は下で　NGEx.txtを晒すスレ4
http://mattari.plusvip.jp/test/read.cgi/jane2ch/1325934427

46 · 2013/09/19(木) 23:50:13.04

>>47
ありがとうございます
無事あぼーん出来ました
直前の自分のレスも消えてます

**nobodyさん** · 2013/09/22(日) 00:52:59.03

下の文字列から最短で「NN are_VBP strongly_RB supported_VBN」を抜き出すのに
NN\s.*?VBNでうまくいかない（最長マッチが返ってくる）のですが、何が悪いのでしょうか？

In_IN Israel_NNP ,_, freedom_NN of_IN opinion_NN and_CC risk_NN taking_NN are_VBP strongly_RB supported_VBN ._.

**nobodyさん** · 2013/09/22(日) 02:25:21.73

それだと最初に出現するNN\s位置からマッチングが始まって、
最短で後続するVBNまでがマッチする

こうじゃないか？
.*(NN\s.*?VBN)

49 · 2013/09/22(日) 08:30:46.88

>>50
ありがとうございます。
しかし、、、.*(NN\s.*?VBN) だと、今度は、行全体がマッチしてしまいます。。。
ムムム

**nobodyさん** · 2013/09/22(日) 14:36:58.31

NN arからじゃ駄目なん？
NNじゃ>>50の言うとおり最初のNNからマッチするんだし

49 · 2013/09/22(日) 15:17:49.08

>>50
>>52
ありがとうござしました。
プログラム板でも聞いてみたところ、下のような表現を教えてもらいました。
NN\s((?!NN).)*?VBN

**nobodyさん** · 2013/09/22(日) 20:33:23.35

>>53
結果教えてくれてありがと
前方参照否定位置指定子かー

NNが来ないNN空白～VBNにマッチするのね

**nobodyさん** · 2013/09/23(月) 15:50:05.13

ええい、お前はもう下がっておれ
webprog板の面汚しめ

**nobodyさん** · 2013/09/23(月) 21:29:41.29

php使いが鼻で笑われる所以(´・ω・｀)

**nobodyさん** · 2013/09/23(月) 21:37:40.88

(´・ω・｀)←この顔文字、3年ぶりぐらいに見たｗ

**nobodyさん** · 2013/09/25(水) 21:08:33.09

>>57
女友達いないの？

**nobodyさん** · 2013/10/07(月) 05:09:32.74

PHP5.4です。
'hoge山田
太郎2様hoge'
（2の数字は色々変わります）
の中から'太郎2様'をマッチさせたいのですが
/山田[\s\S]*?(/太郎.*?様/u)様/u
でうまくいかないです。どなたか教えて下さいまし。。。

**nobodyさん** · 2013/10/07(月) 15:52:08.10

太郎\d+様

**nobodyさん** · 2013/10/07(月) 16:36:42.52

>>60
なんとー
ありがとうございます

**nobodyさん** · 2013/10/09(水) 23:36:54.74

行の最後に[a-z0-9]が9文字、はどう指定するんでしょうか
([a-z0-9]){9}$
$(([a-z0-9]){9})
と思ったのですが、うまくいかないです。

**nobodyさん** · 2013/10/10(木) 10:38:47.00

[a-z0-9]{9}$

**nobodyさん** · 2013/10/10(木) 11:09:37.77

ありがとうございます！

**nobodyさん** · 2013/10/31(木) 18:34:38.76

ab(cd)efg
とある時
(.*?)
で"(cd)"は返ってきますが、
"cd"　とカッコの中身だけを取りたい時はどうすればいいでしょうか
"("　と　")"　を置換するしかないですか？

**nobodyさん** · 2013/10/31(木) 18:49:48.33

言語、、つか環境は？

**nobodyさん** · 2013/10/31(木) 21:18:35.06

エスケープしろよ

**nobodyさん** · 2013/11/29(金) 11:12:23.82

PHP5で
パターンは、/<a>.*<\/a>/
対象文字列は、<a>テスト1</a><a>テスト2</a>
preg_match('/<a>.*<\/a>/', '<a>テスト1</a><a>テスト2</a>', $result)

でマッチした文字列は、
$result[0]:<a>テスト1</a>
$result[1]:<a>テスト2</a>
となることを期待しているのですが、

実際は、
$result[0]:<a>テスト1</a><a>テスト2</a>
となりました。

<a></a>は独自タグで間に入る文字列長、フォーマットは不定です。
どうすれば期待通りの振る舞いに出来るでしょうか?

**nobodyさん** · 2013/11/29(金) 11:36:29.05

68です。

すみません。訂正します。

×　preg_match('/<a>.*<\/a>/', '<a>テスト1</a><a>テスト2</a>', $result)
○　preg_match_all('/<a>.*<\/a>/', '<a>テスト1</a><a>テスト2</a>', $result)

**nobodyさん** · 2013/11/30(土) 00:49:11.30

**nobodyさん** · 2013/11/30(土) 23:20:57.87

正規表現の練習になるお題ください

**nobodyさん** · 2013/12/04(水) 06:52:39.64

>>71
お題が欲しけりゃJaneのReplaceStr.txtとかNGEx.txtとか自分でいじってみればいいんじゃないの？
練習はReplaceStr Toolでやれるから。
グループ化を使って解析させると幾分わかりやすくなる。