MMX使って組んでみたんですが、まったく同じコードなのに第一オペランドにmm0を使うと
他のmmxレジスタを当てた時よりもわずかに早いみたいなんですが…。
普通のアセンブラだと、第一オペランドにaxを使うと1byte小さくなるとあったので
それと同じようなものなんでしょうか?
もっとも、640×480×32bitのアルファブレンド演算を1000回試行して
100msec程度の差なので誤差かもしれませんが…。
ちなみにWin98SE、Duron1.2GHzを使ってます。