pixel_satd_wxhのSIMD化
あけましておめでとうです。
さてなんとかpixel_satd_wxhもSIMD化して、さらに速くなりましたが、元通りとまではいかず。
とりあえず現状をまとめて、上の階層をSPUに持ってくることになりそう。
今回の速度は、
- SPU(SIMD化)
- 477秒
- PPU(前回の測定値)
- 320秒
前回PPUのrefine_subpelの処理時間は98秒で、それ以外の処理時間は222秒。ということはSIMD化したSPUでは255秒かかったことになる。前回SPU側の処理を呼び出して、LSへメモリを転送するだけの処理が219秒かかったことになっているので、SPUの実処理時間は36秒。ちょっと嘘がある。今回はDMA転送を関数の最初でスタートして処理する直前で転送完了を待つようにしたのでメモリ転送しながら少し処理している。が、それでもかなり速度アップしたことになる。ええこっちゃ。
とはいえ、結局メモリ転送に時間がかかってプラスマイナスのマイナスになっている。次は上の階層としてx264_me_search_refのSPUに移動するか。その前にSDK3.0もインストールしたほうがいいし、オリジナルコードもだいぶリビジョンが上がっているだろうし、マージせねば。