>>867
コンパイラが用意したmemcpy()の実装が遅くて自作したことがあるんだが、
memcpyの高速化のポイントはSIMD演算なんかじゃないよ。

拡張命令は使うが、それは、キャッシュのプリフェッチ制御と、
幅が広いという理由でSIMD用のレジスタにロード/ストアするだけ。
SIMD演算なんか、しない。
つまり、128bitのスカラー処理なんだよ。

拡張命令がなかった頃は、
FPUのレジスタが64bit幅だったんで、
浮動小数点でもないのに、FPUのレジスタを使ってコピーしてたなぁ。