awk ファンクラブ

**login:Penguin** · 2008/07/07(月) 20:45:18

おーくについて語りましょう

**login:Penguin** · 2008/07/09(水) 19:55:00

俺はrubyとpython両方使ってる。
rubyはワンライナー～十数行のスクリプト。
pythonは数十行～数百行のスクリプト。

**login:Penguin** · 2008/07/09(水) 20:03:27

そんな昔にawkとかと出会えた人が羨ましい

**login:Penguin** · 2008/07/09(水) 20:09:52

awk gawk jgawk やっぱり魅力はデータなめさせた時のスピード感

**login:Penguin** · 2008/07/09(水) 21:59:50

適当なデータをSQLにして流すときとかに使ってる。
BEGIN/ENDのおかげでトランザクション使うのも簡単。

**login:Penguin** · 2008/07/09(水) 23:40:46

>>14
「プログラミング言語AWK」が絶版になると聞いてあわてて確保したが、すぐ再版された。

**login:Penguin** · 2008/07/20(日) 12:21:50

awk　がなくなると困る・・・・・
Perlで$3 を表示しる！とかどーすんよ

awk '{print $3}'

**login:Penguin** · 2008/07/20(日) 12:31:10

オークについて、おおくは語らねぇ

**login:Penguin** · 2008/07/20(日) 13:45:48

>>20
perl -ane 'print $F[2], "\n"'でいいんじゃね？

**login:Penguin** · 2008/07/20(日) 22:40:15

>>22
なんかこう、Perlってスクリプトにエレガントさを感じないんだよな。つぎはぎが多い
というか。

awkの場合、cに近いスタイルでありながらパターンマッチングとか連想配列の実装が
エレガントだからコードを見ててきれいに感じる。

**login:Penguin** · 2008/07/20(日) 23:32:42

>>22 ﾏｼﾞﾚｽ　㌧㌧　ちょっとやってみる（ｦｲ

**login:Penguin** · 2008/07/21(月) 04:31:14

perl の -n は各行に対しての処理、-e はスクリプトをファイルでなくその場でワンライナー書く為のものだが
-a オプションはやっぱり awk の名に由来するのかねぇ

**login:Penguin** · 2008/07/21(月) 10:22:28

>>25
autosplit modeってusageに書いてあるじゃん。

**login:Penguin** · 2008/07/22(火) 11:02:10

>26
いや名目上はそうだけどさ。
スクリプトでauto～なんて言い出したらキリが無いワケじゃん。
ぶっちゃけ -n だって自動ループと言っちゃえばそうだし。

そこで -s や -p みたいな名前じゃなくて
わざわざ -a にしたのは、やっぱ awk の名を意識したからなのかな、と
思ったんだよ。

**login:Penguin** · 2008/08/17(日) 18:47:40

ruby -ne 'puts split[2]'のほうが楽、と思ったけど
空行とかでの扱い考えると
ruby -ne 'puts split[2] || ""'
になるのか。やっぱawkが楽だな。

**login:Penguin** · 2008/12/03(水) 10:54:22

sedのスレとかあったので、思わず「なんでawkを使わない？」って突っ込んでしまったけど、
実はおれも長らくsedからawkへ行けなかった。田中さん(緑のSerrow)が月刊asciiに書いた
記事を読んで使えるようになったのだった。

いまではperlも使うが、やはりawkが楽だなぁ。16進→10進変換の関数作ったり、
バイナリデータ読むためのコードをCで作ったりして無理やり使ってたころが
懐かしい。

**login:Penguin** · 2008/12/03(水) 23:47:03

2年くらい前からLinuxを本格的に使い始めたけど
awk(gawk)とsedには特に力を入れて勉強してる
gawkは機能が洗練されて美しいし直感的で使いやすい
リファレンスもとてもしっかりしてる

**login:Penguin** · 2008/12/09(火) 16:01:43

おれが一番よく使うのは連想配列。

gawk '{w[$1]++;}END{for(i in w)print i,w[i];}' xxxx.txt | sort

みたいなことを何百回やったことか。

**login:Penguin** · 2009/04/21(火) 01:25:03

わらうw
ttp://awk.info/?doc/dsl/awkplusplus.html

object_variable = class_name.new[(optional parameters)]
object_variable.method_name(parameters)
object_variable.delete

**login:Penguin** · 2009/04/21(火) 17:02:32

みなさん教えて下さい。

一行毎に読み込み@<と@>で囲まれた部分を
ランダムなアルファベット10文字に置換し、
元々@<@>に囲まれた部分の文字列と置換したランダムな文字列の対応を
別ファイルに書き出し

っていうのをやりたいです。
awkとsedでできるの？

pythonで書くべき？

**login:Penguin** · 2009/04/21(火) 18:09:12

できるっちゃーできるが、おすすめはしない。

BEGIN {
output = "hoge.txt"
chars = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
len = length(chars)
srand()
}
{
if(match($0, /@<.*@>/)){
t = substr($0, RSTART+2, RLENGTH-4)
if(!(t in m)) m[t] = rndstr(10)
$0 = substr($0, 1, RSTART+1) m[t] substr($0, RSTART+RLENGTH-2)
}
print
}
END {
for(i in m) print i, m[i] > output
}
function rndstr(n, s){
while(n--) s = s substr(chars, int(rand()*len)+1, 1)
return s
}

**login:Penguin** · 2009/05/08(金) 21:56:17

まじぽかのUMAちゃんは最高にかわいいNE！

**login:Penguin** · 2009/07/08(水) 17:12:37

printfと$ / $がうまく両立できない・・・
文型向け授業でわざわざlinux使わせるなよ・・・

**login:Penguin** · 2009/07/14(火) 15:14:45

やっぱAWKいいよねー
「プログラミング言語AWK」は買い逃してたんで再販速攻で買ったよ。
Excelなんてやってられねーっつーの

**login:Penguin** · 2009/07/14(火) 15:45:04

>>37
Excelのvlookupみたいなリレーショナルな事がやりたい場合ってどーしてる？

**login:Penguin** · 2009/07/16(木) 23:17:47

連想配列でいいんちゃうん？

**login:Penguin** · 2009/07/18(土) 04:58:19

いやさ、複数のシートから引っ張ってくるような感じで、複数のテキストファイルを対象にしたい時。

**login:Penguin** · 2009/07/18(土) 15:26:29

そんなん普通に複数ファイル処理すればいいやん。

**login:Penguin** · 2009/07/18(土) 16:20:59

>>41
> そんなん普通に複数ファイル処理すればいいやん。

「普通に」の所ｋｗｓｋ

**login:Penguin** · 2009/07/18(土) 21:51:54

getlineすりゃえーやろ

**login:Penguin** · 2009/07/19(日) 04:55:45

awk初心者です。質問させてください。
awkでアクセスカウンタを作ろうと思い、
以下のようなスクリプトを書いたのですが、
最後のhtmlへの出力（表示）の方法がわかりません。
どうしたらいいのでしょうか？

44 · 2009/07/19(日) 04:57:30

BEGIN{
#プロセスロック
lock()

#カウント数の読み込み
while (getline < count.dat > 0){
before_count = $1;
}
close(count.dat);

#カウントを１進める
new_count = before_count + 1;

#数字の置換を行う
sub(before_count, new_count, $1);

#プロセスロック解除
unlock()
}

44 · 2009/07/19(日) 04:58:33

print "Context-Type: text/text";
print "\r";

END{
#表示テンプレートの読み込み
while (getline < count.txt > 0){
txt_file[++i] = $0;
}
close(count.txt);

#あらかじめセットしてあるテンプレート上の文字列を置換
gsub("<!--#count.cgi--!>", new_count, $0);

print $0;
}

**login:Penguin** · 2009/07/19(日) 11:16:35

>>43
getline知らなかったわ。
難しそうだな・・・

**login:Penguin** · 2009/07/19(日) 15:13:23

>>44
SSIの仕組みは理解できていますか。
ttp://httpd.apache.org/docs/2.0/ja/howto/ssi.html

**hogehoge** · 2009/07/21(火) 14:50:51

getline は毎回リファレンス見に行ってるなぁ
頭が劣化しとるわー

**login:Penguin** · 2009/08/01(土) 15:31:08

こんなものが落ちてたw
ttp://mitya.pp.ru/chamberlen/assorted/OReilly%20-%20Sed%20&%20Awk%202nd%20Edition.pdf

**login:Penguin** · 2009/08/15(土) 20:33:21

Mac OS X Leopard 10.5.8でjgawkを使いたいのです。
ターミナルでawk '{print $0}' filenameですと日本語が悲しいです。
お使いのみなさん、使用法等教えて下さい。

**login:Penguin** · 2009/08/19(水) 18:02:30

板違い。

**login:Penguin** · 2009/08/22(土) 09:19:23

Mac OS XをUnixとして使ってる人の為のスレその15
http://pc11.2ch.net/test/read.cgi/mac/1247059597/

こっちのが詳しいかもね

**正月前** · 2009/12/29(火) 22:19:45

awk初心者です。
awkにはperlのjoinみたいの関数ありますか？
perl:
print join(":",$_);

**login:Penguin** · 2009/12/30(水) 01:06:12

データ集計に便利

**login:Penguin** · 2009/12/30(水) 01:44:22

>>54
BEGIN {OFS=":"}{$1=$1;print}

**正月前** · 2009/12/31(木) 16:45:37

重複を削除するBASHスクリプトに、perlの部分はawkの連想配列で書き換えたいんですが、splitした後の処理方法が分かりません
教えて頂ければ幸いです。

-----------------------------
hoge='a:b:c:d:a:b:c:d:a'
echo -n $hoge | perl -F: -ane 'chop;foreach(@F){$s{$_}++ or push(@b,$_)}print join(":",@b)'
-----------------------------

**login:Penguin** · 2010/01/05(火) 11:48:18

素人なりですけど
echo -n $hoge | awk 'BEGIN{OFS=":"}{n=split($0,a,":");m=1;for(i=1;i<=n;i++){if(!(a[i]in b)){$m=a[i];b[$m]++;m++}}print}'

**login:Penguin** · 2010/01/05(火) 12:34:43

echo -n $hoge | awk 'a[$0]++<1{printf(NR>1?RS:_)$0}' RS=:

**login:Penguin** · 2010/01/05(火) 12:50:31

a[$0]++<1 じゃなくて
!a[$0]++ とした方が1バイト短くなるな

って、そういう趣旨じゃないか

**login:Penguin** · 2010/01/08(金) 21:03:31

プログラミングAWK　3度目の復刊
http://www.fukkan.com/fk/CartSearchDetail?i_no=68313239&tr=t

**正月前** · 2010/01/11(月) 22:20:00

>>58,59,60
ご回答、誠に有難うございました！
まだawkの部分理解してないけど、期待通りの動作が確認できました！

**login:Penguin** · 2010/03/16(火) 14:08:38

Linuxじゃないんですが、Gawk on Windowsだと、
　gawk '{print $1;}' data.txt
ていうのは、クォーテーションはダブルにしないといけないんですね。。。

**login:Penguin** · 2010/03/16(火) 14:27:11

うん、引数文字列をどう解釈するかは awk じゃなくてシェルだから。
cmd.exe の仕様の問題であって、awk の側では対応しようにもできない。

**login:Penguin** · 2010/05/14(金) 13:36:36

BEGIN {

printf "２５６倍のコードが提供されてる\n"
printf "ttp://books.ascii.jp にアクセス\n"
printf "本には4756101623なんてのがついてるけど、本の通りに入れるとnot found\n"

}

END {
print "昔と本の内容が変わってるみたいだな"
}

**login:Penguin** · 2010/05/14(金) 21:49:15

END {
　　print "まだ始まってもねーよっ！"
}

BEGIN {
　　printf "・・・ごめ・・・\n"
}

**login:Penguin** · 2010/07/22(木) 10:04:21

{
if ($0 == "aka") print "red"
else print "blue"
}
の最も変態的な記法を教えて下さい。

**login:Penguin** · 2010/07/22(木) 10:29:55

$0=/aka/?"red":"blue"

**login:Penguin** · 2010/07/28(水) 10:04:53

END {
system("echo " + $0 + " | perl -ne 'if(/"aka"/){print \"red\";}else{print \"blue\";}'")
}

**初心者** · 2010/11/04(木) 22:16:05

awkでシェルのPATH変数をマッチさせるときにスラッシュ//を使わない方法を教えていただけませんか？
perlだと＃＃で行けますが

**login:Penguin** · 2010/11/04(木) 23:15:07

>>70はマルチ

**初心者** · 2010/11/05(金) 06:33:50

ごめんなさい！
マルチがだめとは知りませんでした。

**login:Penguin** · 2011/02/03(木) 07:43:56

アルフレッド・V・恵方

**login:Penguin** · 2011/02/11(金) 03:51:35

awk で宛名書きだそう

AWK Users JP :: OSC2011 Kagawa 特設サイト
http://gauc.no-ip.org/awk-users-jp/blis.cgi/OSC2011_Kagawa

**login:Penguin** · 2011/02/11(金) 21:58:36

awkって今時オブジェクト指向もサポートしてねぇのか。
だせぇ・・・

とか思ってたらこんなのもあるんだな。
http://awk.info/?doc/dsl/awkplusplus.html

**login:Penguin** · 2011/05/24(火) 19:21:38.77

awkの処理についてアドバイスを下さい。
スペースで区切られたテキストファイルがあります。

例（フィールド数も文字数も全部異なります）

abc efg hij http://www.example.com/index.html xyz
123 http://www.example.org/ she good love look good
4edi http://www.example.net/test/test.html

こんな感じのテキストファイルからURLだけを抽出したい
場合、どう言った処理を行うと良いでしょうか？

printなどは使えそうにないし頭を抱えています。
是非お助け下さい。

**login:Penguin** · 2011/05/24(火) 19:44:33.96

>>76
{for(i=0;i<=NF;i++)if($i ~ /^http:\/\/.+$/)print $i}

**login:Penguin** · 2011/05/24(火) 19:52:09.13

自分は
match($0, /http:\/\/[^ ]+/, f)
を使う気がする。

**login:Penguin** · 2011/05/24(火) 20:22:38.00

#!/bin/sh
cat 入力ファイル | tr ' \t' '\n' | awk '/^http:/'

…まで書きかけて、あれ、これawkじゃなくてgrepで良くね、と思ってしまった俺

**login:Penguin** · 2011/05/24(火) 20:49:07.88

/bin/shでもやはり自分は
expr 文字列 : '.*$http:\/\/[^ ]*$.*'
を使う気がする。

**login:Penguin** · 2011/05/24(火) 23:22:37.43

うちは>>77の条件を index($i, "http:") == 1 で書くだろうなぁ
でも、処理内容がそれだけなら sed -n 's/^.*$http:[^ ]*$.*$/\1/p' だなぁ
避けられるなら正規表現は避けたほうが速いんじゃないかと思ってる

76 · 2011/05/25(水) 00:02:32.97

まだどうしてそういう結果になるのか…が全然解らないのですが
一つ一つひもといて自分のものにしていきたいです。

みなさん本当に色々ありがとうございます。

**login:Penguin** · 2011/05/25(水) 02:29:57.15

こういうのもpythonで書くようになってしまった俺は駄目なやつですか

**login:Penguin** · 2011/05/25(水) 03:14:46.21

流石にPythonはこういうサクッとしたテキスト処理には冗長すぎないか？
awk以外でならperl、さもなくばrubyあたりまでが俺は限度だなあ

**login:Penguin** · 2011/05/27(金) 01:08:18.13

BEGIN{ FS="http://"; }{ split($2, item, / /); print FS item[1]; }

とか

**login:Penguin** · 2011/06/02(木) 03:19:02.91

入力からランダムで1行表示する
awk '{ l[i++]=$0 }; END{ srand(); print l[int(i*rand())] }'

シェルスクリプトの方が短いか？

**login:Penguin** · 2011/06/02(木) 09:37:16.89

こう書くと1行しかメモリに保存しないので入力行が多くとも平気です

BEGIN { srand() }
rand() * NR < 1 { x = $0 }
END { print x }

**login:Penguin** · 2011/06/02(木) 20:42:21.58

>>87
それだと行数が多いと後半の表示が少なくなっちゃう

**login:Penguin** · 2011/06/02(木) 21:02:20.14

>>88
2行のときは
1/1の確率で1行目が選ばれる
→1/2%の確率で2行目が選ばれる

3行のときは
1/1の確率で1行目が選ばれる
→1/2の確率で2行目が選ばれる（この時点で1行目、2行目の確率はともに1/2)
→1/3の確率で3行目が選ばれる（2/3の確率で1or2行目が残り両者1/2なので全て1/3)

のように、基本的に確率は等しいはずですが……
浮動小数点演算の精度が問題になるような行数の話でしょうか？

86 · 2011/06/02(木) 22:17:12.88

>>87
お、これはすごい！考えたなー。ぱっと思いついた奴は、天才だ。こんな風になりたいわ。

> 浮動小数点演算の精度が問題になるような行数の話でしょうか？
これは初め見たとき思ったけど、それが問題になるなら、
私の書いた方法でもメモリが逼迫してまずい気がします。
ただ、精度やrand()の性能で、実際に統計取ったら88の言うようになるのかもしれません。

あとは、rand()が1を返す実装はないよね？gawkのマニュアル読んで書くのだけど、
関数の説明が簡単に書き過ぎていて、ちょっと不安。

**login:Penguin** · 2011/06/02(木) 22:37:43.51

不要な部分を全部削って87の方が2バイト短いか。
mawkだとsrand()を省けるから、もっと短い。エレガント！

それにしても、4ヶ月ぶりに上がったんだ。ほんと人居ない。

**login:Penguin** · 2011/06/02(木) 22:45:23.28

ワタスは監視してますよ。

**login:Penguin** · 2011/06/03(金) 00:28:36.43

俺も。

**login:Penguin** · 2011/06/03(金) 00:49:49.88

じゃあ、暫く書く

**login:Penguin** · 2011/06/03(金) 01:07:11.81

空行を削除する
awk 1 RS=

sedだと、
sed /^$/d
かな？同じ9文字か。

**login:Penguin** · 2011/06/03(金) 09:20:27.26

>>89
rand()を全行で実行しているから、
１行目には２行目以降が x を上書きする確率が加わり、
２行目には３行目以降が x を上書きする確率が加わり、
ってことになるんじゃないのかな。

全４行の場合
１行目が表示される確率 1/1*1/2*1/3*1/4
２行目が表示される確率 1/2*1/3*1/4
３行目が表示される確率 1/3*1/4
４行目が表示される確率 1/4
って感じで、最終行が表示される確率が一番大きい気かします。
rand()をBEGINの中に入れてしまえば全部同じだけど。

**login:Penguin** · 2011/06/03(金) 09:45:41.12

>>96
1/1*1/2*1/3*1/4 + 1/2*1/3*1/4 + 1/3*1/4 + 1/4 = 5/12 (≠ 1)
なので、それが誤りなのは、すぐに分かるはずですが……
それらの確率を足したら1になっていないといけません
ここは高校数学の確率統計のお話をするスレではありませんが、
以下のように考えたらお分かりでしょうか？

1行目が表示される確率は 1/1*1/2*2/3*3/4 = 1/4
(1行目が選ばれる確率 * 2行目が選ばれない確率 * 3行目が選ばれない確率 * 4行目が選ばれない確率)
2行目が表示される確率は 1/2*2/3*3/4 = 1/4
(2行目が選ばれる確率 * 3行目が選ばれない確率 * 4行目が選ばれない確率)
3行目が表示される確率は 1/3*3/4 = 1/4
(3行目が選ばれる確率 * 4行目が選ばれない確率)
4行目が表示される確率は 1/4
(4行目が選ばれる確率)

**login:Penguin** · 2011/06/03(金) 12:56:40.94

>>97
そうでした。電車の中で気が付きました。
x が上書きされる確率じゃなくて、上書きされない確率を掛けないといけませんでした。
納得。

**login:Penguin** · 2011/06/03(金) 22:11:19.49

なんか利点が無いように見えるので、sedじゃなくawkを使う理由を探してみた。

tar xf linux-2.6.39.1.tar.bz2 --wildcards '*.c' -O >src.txt
time cat src.txt |awk 1 RS= >/dev/null
real 0m3.172s
user 0m2.786s
sys 0m0.757s

time cat src.txt |sed /^$/d >/dev/null
real 0m32.503s
user 0m31.465s
sys 0m0.882s

※参考
time cat src.txt |cat >/dev/null
real 0m0.606s
user 0m0.036s
sys 0m0.586s

おー。sedより、ずっとはやーい
やったね、awk！

**login:Penguin** · 2011/06/03(金) 22:26:22.52

うむ。grep よりも awk の方が速かった記憶がある。

**login:Penguin** · 2011/06/04(土) 12:42:54.20

複数のtimeコマンドの出力から平均を求める
awk -Fm '{ a[$1]+=$2; a[0,$1]++ }; END{ for(i in a) if(i~/^[rus]/) printf "%sm%.3fs\n",i,a[i]/a[0,i] }'

昨日の時間計測のために書いた。
いろいろ問題あり。これ以上短くかけなかった、残念だわ。

sedがすっごい遅いので全部メモリに読み込んで処理させてみた。
time cat src.txt |sed -n '1x;1!H;${x;s/\n\n\+/\n/gp}' >/dev/null
real 0m24.515s
user 0m18.584s
sys 0m2.005s
# ちなみに、昨日のも含めて3回試した結果を平均した

…やっぱ遅い。GNU sedが悪いの？スレ的に満足な結果だけど。
便利で速くてシンプルなのに、あまり使われない紹介されない、消え行くawk、カワイソス

**login:Penguin** · 2011/06/04(土) 13:21:18.28

フィールドを抜き出すワンライナーはやっぱawkでしょ
perl -pae'$_=$F[8].$/'
ruby -nae'puts$F[8]'
awk 'print$9'

**login:Penguin** · 2011/06/05(日) 00:51:57.16

>>95の表記初めて見た
このスレの住民にはこれくらい当たり前なのか…

**login:Penguin** · 2011/06/05(日) 05:45:10.75

それってどういう構造なんだ？
1番目の引数である「1」は「パターンは常に成り立つ、アクションは指定しない(=レコードを加工せずに出力)」というawkコードだろうけど
その次の引数って入力ファイルになるはずじゃ？

**login:Penguin** · 2011/06/05(日) 07:57:57.27

わかんねー。なんでこれをコマンドプロンプトに打ち込んで、うまくいくのか。
gawk 1 RS= testfile.txt

**login:Penguin** · 2011/06/05(日) 08:10:41.12

RSが空だとRS=\n+として解釈されるんじゃまいか

**login:Penguin** · 2011/06/05(日) 08:50:42.42

だとしても、何故にRS=\n+がコードとして実行されるの？
コードは1で終わってね？

**login:Penguin** · 2011/06/05(日) 09:34:08.07

自己解決、assignment optionsなんて仕様があったのか

**login:Penguin** · 2011/06/05(日) 09:55:54.81

おー、いっぱい居るね！まだまだやれるぞ、awk！

一応説明すると、プログラム自体は>>104の解釈の通りです。

また、RS=""なら、RS="\n\n+"とほぼ同じです。
違いは、RS=""はファイルの先頭に改行が続くとき、それを無視します。

ついでに、POSIXではRSに2文字以上設定すると、結果は不定とされています。
gawkでは、正規表現を使える拡張がされていますけど。

引数ですが、ここに代入文を書くとBEGINの後に処理されます。
まあ、ああ書いたのは-vオプションを使うと3文字コマンドが増えるからなんですが、
こういう変数の設定方法もあるということで。

**login:Penguin** · 2011/06/05(日) 10:44:14.22

awk /./

の7文字だけでOK
RSは初期値が入ってるんだから

**login:Penguin** · 2011/06/05(日) 14:48:51.10

そうか、sed /^$/d って grep . で良かったんだな

**login:Penguin** · 2011/06/05(日) 19:30:13.18

>>109
書き忘れ。
RS=""のとき、ファイルの末尾の改行も無視する。
あと、FSが"\n"に設定されているように振舞う。
元々複数行を一気に処理したい場合に使うことを想定してたのだろう。

>>110
ああ、すごい、これは短い！頭柔らかいねえ、スマートだわ。
夢の中でも考えたのに…無能過ぎワラタ

>>111
grep最強伝説はっじまっ…らないぞ。同じ方法で時間計測したら2時間半たっても終わらない。
grep捨ててawkを使おう！

**login:Penguin** · 2011/06/05(日) 20:13:50.57

awkはじまったなｗ

**login:Penguin** · 2011/06/07(火) 23:28:39.30

改行をWindows向けに置き換える
awk '{ print $0 "\r" }'

こっちの方が速くて短いか。
awk 1 ORS='\r\n'