最初こそシンプルだったが、拡張を続けていくうちに、いろいろと無駄も出てきたでしょ。

たとえばNiagaraシリーズのようなマルチスレッドをやると、大きなレジスタファイルは非効率だよね。
L1D$よりもアクセス頻度の低いデータがレジスタウィンドウの隠れている部分に残っているのは、無駄だよ。
マルチスレッドなんだから、レジスタウィンドウの切り換えのレイテンシが大きくても構わないわけで、
まずは、レジスタファイルを限界まで小さくしたらどうだろう。

さらに、マルチスレッドなのだから、レジスタのアクセスのレイテンシが0クロックである必要すらない。
16本は0クロックで、残りのinとoutの16本はL1D$上に置いてもいいんじゃないかな。

シングルスレッド性能は低下するが、そこはヘテロで。
特性の異なるCPUコアが混在したものを上手にOSがハンドリングすることは、
CPUとOSの両方を同じ会社が作っているSunの強みだと思うよ。