汎用的にしようとして、必要そうな値全部を根こそぎ同様に放り込んで処理、とかでなく
やらせたい内容にとって必要な値だけに絞って渡して、
CPU側処理とGPU側処理を振り分けると、最適に高速に処理出来るかなと思う

例えば >>947 に並べてる値群って、あの場合にはあれとこれはいらない、とか
この場合にはこれとあれはいらないとか、普通にあるよな