D3DFMT_A8サーフェイスにαチャンネルだけを読み込んで扱った方がよくない?
DOTPRODUCT3みたいな面倒な事しなくて済むよ