正規表現道場@2ch

**ヽ(´▽｀)ノ** · 2001/07/26(木) 09:03

以外と毛嫌いして居る人も多そうな正規表現、
でもperlを使いのなす上で避けて通れない道だったりするかもです。
そこで、スクラップブック的に目に止まったカッコイイ正規表現を
書き留めておこうと言うスレッドです。
質問する時は言語と、得たい結果をなるべく詳しく書いてね。

取り合えず僕が知ってる有用なリンクです。
http://www.din.or.jp/~ohzaki/perl.htm
http://www.kt.rim.or.jp/~kbk/regex/regex.html

もっとｲｲ（・∀・）リンクは>>2-10さん辺りが書いてくれるカモ････

**声域表現** · 02/10/25 18:12

>>836
ありがとうございます。
これを元にがんばってみたいと思います。

**nobodyさん** · 02/10/25 21:17

おとなの玩具激安販売！
なんとピンクローター300円から♪
マニアック商品などその他いろいろあります！
http://www.king-one.com

**827** · 02/10/25 22:48

>>829
ああ、やりたいことが確かに判りませんね。
迂闊でした。

改めて、質問いたします。

レコード区切りとなるものが存在せず、
2002.10.19
などの日付にマッチさせ、その前の行は空白を残して、
それ以外の空白を消すということです。

つまり、
\n\n\d\d\d\d\.\d+\.\d+.*
のようなものが区切りのキーになると思います。

**nobodyさん** · 02/10/26 08:59

だから>>828に書いたんだが。
直後に書かれた答えを無視して再質問するのがはやってますか？

**Weasel** · 02/10/26 18:30

Apacheのログ（Combined）を正規表現しようとして
いるのですが、やり方がわかりません。

> 127.0.0.1 - - [10/Oct/2000:13:55:36 -0700]
> "GET /apache_pb.gif HTTP/1.0" 200 2326
> "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

というログフォーマットを
・IPアドレス
・日付
・時間
・ファイル
・処理コード
・バイト数
・参照元
・エージェント

でCSVにしたいのですが・・・

だれか教えてください。

**nobodyさん** · 02/10/26 18:59

CSVって何か知ってる？

**nobodyさん** · 02/10/26 19:54

>842

CSVってカンマで区切ったフォーマットのことですよね。
Apacheのログは基本的にスペース区切りなのですが、
単にスペースをカンマ（,）に置き換えると、GET　/index.html
の中のスペースが区切られたり、いらない「”」が入ったり、
と困っているわけです。また、日付と時間を別のフィールド
にしたいので、正規表現を利用してきちんと指定したいのです。

今は
　１　行を読み込む
　２　- - [　を削除
　３　日付の「2000:」を「2002,」に変換する
　４　-9000]　を削除
　５　「"GET 」を削除
　６　ダブルクォーテーションを削除
した上でスペースをカンマに変えてCSVにしています。

これを世紀表現を利用して、もっとスマートにしたいのです。

よろしくお願いいたします。
　

**nobodyたん** · 02/10/26 20:39

my($remote, $ident, $user, $datetime, $req, $status, $size, $referer, $ua)
= m{(\S*) \s+ # remote
(\S*) \s+ # ident
(\S*) \s+ # user
\[(.*?)\] \s+ # datetime
"(.*?)" \s+ # request line
(\S*) \s+ # status
(\S*) \s+ # size
"(.*?)" \s+ # referer
"(.*?)" # user agent
}x;

とでもした後、適当に変形すれば良いだろ。

**Weasel** · 02/10/26 20:47

>>844

ありがとうございます。早速試してみます。

**nobodyさん** · 02/10/26 22:48

以前から、ずーと欲しいツールで、
正規表現だけで解決できるかどうかわかりませんが、
あるディレクトリにcsvファイルが
data01.csv
data02.csv
……
data10.csv
のように存在しています。
これを
perlなどで処理したい場合、これらのデータをファイル読み取りのところで、
配列の配列の配列やハッシュのハッシュのハッシュ
という３次元データー構造に変換しなければ、その後のプログラミング
が煩雑になりそうで、いままで、ずーと避けてきました。

厨な私は、普段はこれをエクセルで処理してるんですが、
いっそのこと正規表現で処理してしまえないでしょうか？

なにかアドバイスありますか？

**nobodyさん** · 02/10/27 00:42

>>846
で、どう処理したいの？肝心な部分を書いてくれないとなんとも言えないよ

**Weasel** · 02/10/27 00:52

>>846

　１　ディレクトリ下のファイル名を<*>で取得
　２　ファイルを開く
　３　tempファイルにファイル名と一緒に一行ずつ書き出す
　４　ファイルの数だけ２と３を繰り返す
　５　まとまったtempファイルを処理する

てな感じではどうでしょうか？　とは言うもののdata01～10.csvの
違いがわからないのですが？

**Weasel** · 02/10/27 01:07

>>844

すみません。これPerlでしょうか？
　m{ ... }x;
という書式の意味がわからないです。読み込んだ
ログファイルはどの変数に格納すればよろしいの
でしょうか？

大変あつかましくて恐縮ですが、何卒ご教授お願い
します。

**nobodyさん** · 02/10/27 02:25

やりたいこと→perl式
は質問してもしかたないけど
perl式→説明
は「おしえて君」
ですよ。自分で調べられるでしょう。やりたいこと→perl式
は質問していいけど、
perl式→説明
は自分で調べられるでしょう。

**nobodyさん** · 02/10/27 02:45

>>850

失礼しました。会社にラクダ本があるので、
月曜日に調べてみます。

**nobodyさん** · 02/10/27 03:15

844じゃないけど。
　/xモディファイアは、正規表現の中にスペースとかコメントが
入るのを許すもの。m{...}は、デリミタを（デフォルトの"/pat/"
だと"/"をエスケープしなきゃいけなくなるので）"{pat}"にするよ、
とういうことでつな。

>読み込んだログファイルはどの変数に格納すればよろしいの
>でしょうか？
　普通に読み込めば？
open LOG, "hoge.log";
open OUT, ">fuga.csv";
while(<LOG>){
　　　　　#844さんのコード
　　　　　#その他必要な処理
　　　　　
　　　　　print OUT "$remote, $ident, $user, ・・・\n";
}
close OUT;
close LOG;
　みたいな感じで。

**nobodyさん** · 02/10/27 08:54

>>73
がなぜ
ドラゴンクエスト？

**Weasel** · 02/10/28 02:01

>844
>852

情報ありがとうございます。これってPerlの省略形だった
のですね。

１　変数の記述省略
　　while (<LOG>) {
　　　print;
　　}
　　
　　という指定は
　　
　　while ($xx = <IN>) {
　　　print $xx;
　　}
　　
　　という指定と同じことなのですね。私は常に変数を記述していた
　　（もっというと、配列に読み込んでforeachを使用していた）ので
　　わからなかったです。

２　m{ ... }x;　について
　　これが正規表現だということに気づきませんでした。
　　私はいつも
　　　$ =~ s#abc#def#x
　　という形で利用していたので、上記のような指定ができることを
　　知りませんでした。

もっと勉強します。本当にありがとうございました。

**nobodyさん** · 02/10/28 09:19

すいません。初心者なんですが、
正規表現にて日本語以外、ってどのように指定したらいいんでしょうか。
英字、数字、空白文字はOKで、日本語のみだめ。
jcodeとかつかわないとムリなんでしょうか？

**nobodyさん** · 02/10/28 13:02

[a-zA-Z0-9 ]

**８２７** · 02/10/28 15:19

828さんどうもありがとうございました。

返事が遅くなりました。

**nobodyさん** · 02/11/02 05:32

/aaa::bbb
/bbb
/aaa::bbb/ddd
/bbb/ccc::ddd

つまり
/aaa::bbb
/bbb
等の繰り返し
# aaa:: は省略可能です。

などにマッチさせようとしてるんですけど駄目っす。
助けてください。↓今のとこ、こんな感じ

(/([^:/]+::)?[^:/]+)+
かなり的外れっぽいですが(汗

**nobodyさん** · 02/11/02 13:39

/^(?:\/(?:[a-z]+::)?[a-z]+)+$/;

**859** · 02/11/02 14:31

●/aaa::bbb::ccc/ddd　のパターンを許すなら

/^(?:\/(?:[a-z]+::)*[a-z]+)+$/;

● / と : 以外の文字が[a-zA-Z_]なら
/^(?:\/(?:\w+::)*\w+)+$/;

**858** · 02/11/02 16:22

さっそくありがとうございます >859

目的としているのは、>859見たいな奴ですが、
Invalid regular expressionとか出てしまいました(;_;
regex.cで（GREP？SED相当？）最終的にできればいいんですが。

どうも
?:
のとこでコケテます。

ちなみに、
いいい::あああ/ううう
とかも可能にしたかったりします。

あああ、いいい、ううう
に入れられる文字は:と/以外といった感じで。

**nobodyさん** · 02/11/02 16:45

()で囲まれた文字列だけ

str1,str2,str3(str4,str5,str6)str7,str8,str9 なら str4,str5,str6 だけ

"," →　"，" と変換したいのですが、
どういう文にすればいいですか？

s/$([^$]+),([^\)]+)\)/$$1，$2$/g;

を何回か繰り返すことで何とか済ました（本当か？）のですが、
まともなやり方を知りたくなりまして。

**858** · 02/11/02 16:53

(?: regexp)
は、部分正規表現のグルーピングなんですね。（レポートなし。
ということはこれは外してみて、

/^(\/([a-z]+::)?[a-z]+)+$/;
で、やってみたら通ったけどマッチせずでした。

薄識なんで、\/と最後の/の意味がわからないっす。

**nobodyさん** · 02/11/02 16:58

>>863
Perlの正規表現ではそう書く

**nobodyさん** · 02/11/02 17:01

>>862

1 while s/(\([^)]+),/$1，/g;

**865** · 02/11/02 17:03

こっちがいいな
1 while s/(\([^),]*),/$1，/g;

**nobodyさん** · 02/11/02 17:40

正規表現で、入れ子ってどうやって扱えばよいのでしょうか？

[aa]
[aa[]
[aa[]]
から
[aa]
だけ許すみたいな。

単純に
\[[^\[\]]+\]
でやったら
[aa]にはかからず、[aaa[]]に引っかかっちゃいました。

**862** · 02/11/02 20:50

>>865
めちゃくちゃシンプルですね。しかもレス早いし。
かなり助かりましたです。
どうもありがとうございました。

◆hMJAPH9PWA · 02/11/02 21:14

>>867
Perlで試したら1だけOK、他はマッチしなかったけど？

**perl初心者** · 02/11/02 22:24

ほんまや・・・

#! /usr/bin/perl

@set= ("[aa]","[aa[]","[aa[]]");

foreach $value (@set){
if($value =~ /\[[^\[\]]+\]$/ ){
print "$value\n";
}
else{
print "not match\n";
}
}

PostgresのPOSIX正規表現で試してて、まぁ実際はregex.cで使う
予定だったので又実際に試してみましす。

**870** · 02/11/03 21:50

#include <string.h>
#include <regex.h>

int main(int argc,char *argv[])
{

int i;
regex_t preg;
char *pattern = "^(\\[[^\\[\\]]+\\])+$";
puts(pattern);

/* Complile RE Pattern */
i=regcomp(&preg,pattern,REG_EXTENDED|REG_NEWLINE|REG_NOSUB);
if (i != 0){
puts("error\n");
return 1;
}

puts(argv[1]);
/* Evolute RE */
i = regexec(&preg,argv[1],(size_t) 0, NULL,0);
regfree(&preg);
if(i != 0 )
puts("no match\n");
else
puts("match\n");

return 0;
}

**870** · 02/11/03 21:50

（続き)
うう、駄目っす(;_;

echo "[aaa]" | egrep "^(\[[^[]+\])+$"

ちなみに、
char *pattern = "^(\\[[^[]+\\])+$";
だと、
○[aaa]
○[aaa]]
×[aaa[]]
まで通る

ので、たぶん、[と]のエスケープが駄目のようなんですが。
perlのREって独自の実装だから通るって話ですか？
Rubyとかはgnu regex使ってると思うのでたぶん通らない（？

ここより、Cスレの方が適切かもしれんけどよろしこ！

**870** · 02/11/03 22:12

うわ。WebProg板なのに、埋もれとる．．．
age！

**nobodyさん** · 02/11/04 00:20

"foo bar" =~ /f/　# => <<f>>oo bar
"foo bar" =~ /f*/　# => <<f>>oo bar
"foo bar" =~ /o/　# => f<<o>>o bar
"foo bar" =~ /o*/　# => <<>>foo bar

ruby でどこにマッチするかを表示させてみたのですが、
/o*/が先頭の空文字とマッチするのがどうも分かりません。なぜでしょうか。
f<<oo>> bar とマッチすると思っていたのですが。

**874** · 02/11/04 00:25

あれ、最左最長だからこれでいいんだっけ…？

**870** · 02/11/04 06:13

このサイト参考に
http://www.kt.rim.or.jp/~kbk/regex/regex.html

(\\[([^][])+\\])+$

でやったらでけますた

**nobody** · 02/11/04 06:52

Perlスレを荒らしまくっているruby基地外の好きなrubyなんかの
質問には答えません。

**nobodyさん** · 02/11/05 13:21

布谷知夫 (1998) 環境教育の場としての里山. ランドスケープ研究 61: 296-298.
北尾邦伸 (1998) 風土・文化の伝承の場としての里山. ランドスケープ研究 61: 287-289.
横張真 (2000) 国内外の農政における環境保全の位置づけ.ランドスケープ研究, 63(3), 182-185.
加藤和弘・一之瀬友博・大久保悟 (1997) 都市近郊におけるコナラ林の組成および構造について.ランドスケープ研究, 60(5), 539-542.

のような参考文献一覧があり、
「ランドスケープ研究, 60(5)」の「60(5)」という数字で並び替えたいんですが、
やり方判る方いらっしゃいますか？
ランドスケープ研究の次は、スペースの時と、カンマ(, )の時とが、混在しています。

なお、もとデータはhttp://homepage.mac.com/hitou/satoyama/bunken.htmlから「ランドスケープ研究」というキーワードでgrepしたものです。

**878** · 02/11/05 14:42

訂正。
-----
もとデーターは
http://www.ss.iij4u.or.jp/~osamu-s/bibliography.htm
と
http://ime.nu/homepage.mac.com/hitou/satoyama/bunken.html
で作ったファイルをｇｒｅｐしたものです。

**nobodyさん** · 02/11/05 14:43

>>878
タグがついてるし、複数行もあるけど？

**nobodyさん** · 02/11/05 15:01

>>878
Perlでなら簡単にできるが、シェルコマンドでやりたいの？

**878** · 02/11/05 15:37

ソートできるのであれば、何でもいいんです。

それから、僕はタグはw3m -dumpしました。

**nobody** · 02/11/05 21:49

>>882
これはどう？
while(<>) {
$landscape{$1} = $_ if /\Qランドスケープ研究\E.+?(\d.+)/;
}
foreach $key (sort {$a <=> $b;} %landscape) {
print $landscape{$key};
}
sjisでやるときのために、\Q\E入れますた。

**nobodyさん** · 02/11/05 22:29

>>883
で、できました！！！！

こんなに短く書けるのですね！！！

perlと883ﾀﾝ
って何てすばらしいんだろう！！！

**nobody** · 02/11/05 22:38

>>884
よかったっすね。
ところで、書き込んでから後で気づいたんだけど、昇順ソートにもかかわらず、
61: 296-298.の方が61: 287-289.より前に来ちゃうのよね。どしてー？

◆hMJAPH9PWA · 02/11/06 15:07

>>885
"61: xxx-xxx"の61しか見てないからだよ。

**nobodyさん** · 02/11/06 16:45

>>886
(\d.+)/て最長（行末まで）に一致しない？

**nobodyさん** · 02/11/06 22:30

cmp と <=>

**nobodyさん** · 02/11/06 22:49

>>888(末広がりさん）
記号や空白は、数値としては解釈されないんですね。
ありが㌧

**nobodyさん** · 02/11/07 10:52

#から#までをボールド
/から/までをイタリック

#hello# -> hello
/hello/ -> hello

s|#(.*?)#|$1|g;
s|/(.*?)/|$1|g;

としてましたが

#hello/nest#hello/
ってのがきちゃうと
hellonesthello
ってなっちゃいます。
hellonesthello
ってしたいんですけどスマートな解決法ありませんでしょうか？

**nobodyさん** · 02/11/07 12:02

>>890
#hello/nest/#/hello/

**nobodyさん** · 02/11/07 12:08

>>890
/だと閉じタグの/と紛らわしいので他のにしてください。

**nobodyさん** · 02/11/07 15:20

perlの正規表現で
29から44までの数字ってどう表しますか？

for(29..44)は使わないで、表現してください。

**nobodyさん** · 02/11/07 16:09

/(?:29|3[0-9]|4[0-4]/

**nobodyさん** · 02/11/07 16:09

カッコは不要か
/29|3[0-9]|4[0-4]/

**教えて偉い人** · 02/11/07 19:37

えーと　テキスト中に入れ込むマクロということで、 [@ と @] でくくっています。
で、
[@ [@ xx @] @] <= 本文
1__2_____3__4 <= 話をわかりやすくするための括弧の通し番号

こんな風になったとき、最短の [@ xx @] (番号 2と3 ）を取り出したいのですが
最短一致で [@ .+? @] としても [@ [@ xx @] (番号 1と3 ）が取り出されます。
どうすればいいのでしょうか....
なお、xx の変わりに @ や [ や ] が単独で入る可能性はあるので、
[^@\[\]]+? は使えません

ちなみに jscript です

**nobodyさん** · 02/11/07 21:05

PHPの書籍で、メールアドレスにマッチさせるとして以下の正規表現が載っていました。
"^([a-z0-9_]|\\-|\\.)+@(([a-z0-9_]|\\-)+\\.)+[a-z]{2,4}$"

"\"がふたつ続いている部分は、意味があるのでしょうか。
"\"をひとつにしてもちゃんとマッチしたのですが…。

**nobodyさん** · 02/11/07 21:29

> "\"がふたつ続いている部分は、意味があるのでしょうか。
ある
> "\"をひとつにしてもちゃんとマッチしたのですが…。
気のせい

**nobodyさん** · 02/11/07 21:53

>>898 ありがとうございます。

これでもマッチしますた。
<?php
$mail = "a.b-.c@a.b--b.cc";
if(eregi("^([a-z0-9_]|\-|\.)+@(([a-z0-9_]|\-)+\.)+[a-z]{2,4}$",$mail)) echo "yes!";
?>

どんな場合に"\\"が意味を持つのでしょうか。

**nobodyさん** · 02/11/07 22:04

>>899
マッチすべきでないものにもマッチしないか?
あくまで稚拙なテストでうまく動いてると言い張るなら勝手にしろ
> どんな場合に"\\"が意味を持つのでしょうか。
そんな場合

**nobodyさん** · 02/11/07 22:38

すみませんでした。
"\\"の意味を教えていただけないでしょうか。

正規表現のリファレンスページでは見あたらなかったので、
"\\"というくくり方（捉え方）がそもそも違うのかもしれませんが、
わたしの聞きたいところはご理解いただけないでしょうか。

**nobodyさん** · 02/11/08 01:21

"\\"は￥を表す

**nobodyさん** · 02/11/08 02:00

わたしの未熟な知識だと、
"\."は"."そのものを表し、"\\."なら"\"と任意のひと文字にマッチする…。
ということになるのですが、>>897の場合は違いますよね…？
どう違うのでしょうか。

**nobodyさん** · 02/11/08 02:12

>890
s{(?:#(.*?)#)|(?:/(.*?)/)}{
"$1" unless $1 eq undef;
"$2" unless $2 eq undef;
}ge;

これだと
#hello/nest#hello/ は
hello/nesthello か。

invalid な HTML 吐かないだけマシって考えてください。

02/11/08 02:52

"\""="
"\\"=\
"\\."=\.
?

**nobodyさん** · 02/11/08 03:00

***@2ch.net

**897** · 02/11/08 03:57

えと、905さんの真意は不明ですが、
わたしは905さんとほぼ同じように考えています。
ただし、"\\."だと、"\."という文字列ではなくて、
文字列としての"\X"とか、"\0"とかにマッチする、
つまり、"."は正規表現として扱われるのではないか、と。
そうだとすると、メールアドレスに"\"なんて含まないじゃないか、
なんて思ってしまうわけです。

906さんもヒントなのでしょうか？
***@2ch.netだと、"*"がマッチしないので、ダメですよね。
("\"のときも"\\"のときも)
abc@2ch.netにしてみましたが、当然マッチします。
("\"のときも"\\"のときも)

**nobodyさん** · 02/11/08 04:03

"<a href=\"index.html\">" → <a href="index.html">
"\\" → /\/
"\\." → /\./
?

**nobodyさん** · 02/11/08 08:20

>>905, >>906, >>908
日本語不自由ですか？

**nobodyさん** · 02/11/08 08:46

>>909
FUCK OFF.

**>>897** · 02/11/08 17:02

"^([a-z0-9_]|\\-|\\.)+@(([a-z0-9_]|\\-)+\\.)+[a-z]{2,4}$"ってのはつまり
'^([a-z0-9_]|\-|\.)+@(([a-z0-9_]|\-)+\.)+[a-z]{2,4}$'でしょ？
"^([a-z0-9_]|\-|\.)+@(([a-z0-9_]|\-)+\.)+[a-z]{2,4}$"にしたら
'^([a-z0-9_]|-|.)+@(([a-z0-9_]|-)+.)+[a-z]{2,4}$'になっちゃうから、
たとえば「"@a>aa」などにもマッチするのでは？

**897** · 02/11/08 19:47

>>911 ありがとうございます。
えと、無駄なものもあるのかもしれませんが、
$mail = 'a@a>aa';
$mail = '"a@a>aa';
$mail = '\"a@a>aa';
$mail = '"a@a\>aa';
$mail = '\"a@a\>aa';
以上のすべての$mailの場合で、
if(eregi("^([a-z0-9_]|\-|\.)+@(([a-z0-9_]|\-)+\.)+[a-z]{2,4}$",$mail)) echo "yes!";
以上の判別にマッチしませんでした。（yes!と表示されない）

もちろん
$mail = 'a@a.com';
ならマッチします。

**897** · 02/11/08 19:52

>>911さんがおっしゃりたかったのは、
正規表現として読まれる前の正規表現というか、
"\."をもう一度正規表現として読むと、
正規表現としての"."になってしまう、という意味ですよね。
でも、実際はそういう、二段階で読まれる構成にはなっていないようです。

わかりにくくしか書けなくてすみません。

**nobodyさん** · 02/11/08 20:52

ある文字数制限を越えたら、自動的に切りつめてくれる正規表現を書くにはどうしたら？

たとえば、制限文字数20文字だとして、

ｈｔｔｐ://dailynews.yahoo.co.jp/fc/science/astronomy/
↓
<a href="ｈｔｔｐ://dailynews.yahoo.co.jp/fc/science/astronomy/>
ｈｔｔｐ://dailynews.ya...
</a>

こんなのを考えてるんですが・・・

**nobodyさん** · 02/11/08 21:37

ttp://itp.ne.jp/servlet/jp.ne.itp.sear.SCMSVTop
タウンページでの検索結果を
CSVなどの構造化されたデータに変換する最も一般的な手段は
何でしょうか？

ぼくは今まで、w3m -dump →正規表現
と回してましたが、直接HTML読んでCSVなりに変換されている方
いらっしゃいませんか？

**nobodyさん** · 02/11/08 21:49

>>915
はげしく外出。>>789,>>800

**nobodyさん** · 02/11/08 21:50

>>914
ｈｔｔｐなんていう全角のurlがあるとは思われんので
レス不可能。

**914** · 02/11/08 21:53

ごめん自己解決した。
phpでやってるんですが、

$text = eregi_replace(
"(http://[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]?)".
"[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%#]*",
'<a href="\0">\1</a>', $text);

こんな感じのでできました。
果てしなくコードきもいけど。
もっとスマートな方法あるんでしょうか。

**914** · 02/11/08 21:56

>>917
いや、ほら、
掲示板で半角でhttpって打つと、
勝手にリンクに変換されてうざいじゃないですか。

**nobodyさん** · 02/11/08 22:22

>>918=914
{1,20}を使う。後は分かるはず

**nobodyさん** · 02/11/08 22:25

>>919
だーからー、
ｈｔｔｐ://dailynews.ya...
は、20文字制限って言ってるのに24文字でしょ、
もしかして、マルチバイト対応での話？

**920** · 02/11/08 22:34

>>921
だーからー、
本当はソレは半角なんだが、
ここ(２ちゃんねる)では勝手にリンクに変換されてうざいってことでしょう。

**914** · 02/11/08 22:50

おー、きもちいいくらいすっきりした。ありがとうです！

$text =
preg_replace("#ftp://([-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%\#]{1,16})[-_\.!~*'()a-zA-Z0-9;/\?:@&=+$,%\#]*#i",
'<a href="\0">\1</a>',
$text);

>>912 そうです。

できれば、「20文字以上を越えたら"..."つける」っていう機能もほしいな、
とか、思ったりしたり。。。。

**nobodyさん** · 02/11/08 22:55

書いてたら先越された・・・
「20文字を超えたら」のところはif文との組み合わせでしょ。

**nobodyさん** · 02/11/08 23:01

>>922
だーからー、じゃなかった、
そーれじゃー、
sedとかPerlで
s/(<a href=\")(ｈｔｔｐ:\/\/.............)(.+>)(<\a>)/$1$2$3$2$4/;
かいな。sedでは\1, \2 ...だったけや。

**nobodyさん** · 02/11/08 23:14

s{(http://[-\w\./~\%#\@&?]+)}{"<A href=\"$1\">".(length($1)>20?substr($1,0,20).'...':$1).'</A>'}ge;

**914** · 02/11/08 23:32

(´Д｀)PHPだとe修飾子の関数内で後方参照が使えない。。。。

みんなPerl派なのかな。
はて、どうしようか。

**914** · 02/11/09 00:13

むぅぅ、できた！

function e_modifier($match){
if(strlen($match[0]) > 20){
return "<a href=\"$match[0]\">".substr($match[0],0,20)."…</a>";
}else{
return "<a href=\"$match[0]\">".$match[0]."</a>";
}
}
$text = preg_replace_callback("|gopher://[-_\.!~*'()\w;/\?:@&=+$,%#]+|i", 'e_modifier', $text);

結構ながくなっちったなあ。
それにしても、完結に書ける分Perlはいいなあ。
>>926 さんのやつかっこいいコードです。

**nobodyさん** · 02/11/09 00:15

>>928
自分でできるんならいちいち聞くな。

**897** · 02/11/10 11:41

あの、>>897の質問はもう放置でしょうか…。
やさしーい方が答えてくださるとうれしいです。
すみません、これでダメならもう聞きません。

**nobodyさん** · 02/11/10 16:03

その問題は、既に解決しています。

**nobodyさん** · 02/11/11 20:19

$word=~s/AA(\d+)$//;
とすると、数字がないときに$1に変な文字が入るのですが
どうすれば入らないようにできますか。

**nobodyさん** · 02/11/11 21:43

if ($word =~ s/AA(\d+)$//) {

}

**nobodyさん** · 02/11/11 23:45

>>932
変な文字が入る？例えばどんな？

**nobodyさん** · 02/11/12 21:56

>>934
ソースにない文字なので、ファイルのデータだと思われます。

**nobodyさん** · 02/11/12 23:51

my $var = '1';
my $foo = 'A';

$var =~ /(\d)/;
print $1, "\n";
$foo =~ /(\d)/;
print $1, "\n";

1
1

つうことじゃないの？
何で何をどうやってるのかわからんけど。