一番のネックはラスタデータの転送が非効率的なところじゃないかな。
文字をアンチエイリアス付きで描画したり、α合成を行なったり、
ビデオ再生用にひたすら描画を繰り返したり… という近代的な機能の効率は、
ぜんぶラスタデータの転送速度にかかってる(と思う)。

現状は
クライアントが持つラスタデータ -> 通信路 -> Xサーバ -> デバイスドライバ == VRAM
のように、やたらデータコピー回数が多い。これを
クライアントが持つラスタデータ == Xサーバ -> デバイスドライバ == VRAM
とするのがMIT-SHM、
クライアントが持つラスタデータ == Xサーバ == デバイスドライバ == VRAM
とするのがDGAで、確かにこの順番に速くなる。XVideoは知らない。

でも、DGAまで使い出すと、VRAMのレイアウトを考えないといけないから、
ピクセルデータのフォーマットを気にしないといけなくなって面倒くさい。
だから、ここらへんをうまくライブラリにおしこめられればいいなあと。

それから、デバイスドライバはオーバヘッドじゃない(はず)。
VRAMがXサーバのメモリ空間にマップされたらあとはCPUの仮想記憶が働くだけで、
XサーバがVRAMにアクセスする度にいちいちドライバが呼び出されることはない。
だから、ここの部分をカーネル空間に押し込めても速くはならない。