x264_frame_deblock_rowのSPU化

x264のx264_frame_deblock_row関数のSPU化がだいぶできてきたけど、PPUより遅い。イメージデータの転送が遅いのか、SIMD化していないから遅いのかと色々試しても速くならない。調べた結果、イメージデータはまとめてDMAしていたけど、設定情報系(x264_tで定義されたパラメータ系)を手抜きして変数ごとにDMA転送していたのがまずかった様子。この点を直すことで少なくともPPUと同じレベルには戻りそう。まだバグっているけどもう少しか。

しかし手抜きを許してくれませんなー。