FFmpeg: libavcodec/ppc/h264_template

00001 /*
00002  * Copyright (c) 2004 Romain Dolbeau <romain@dolbeau.org>
00003  *
00004  * This file is part of FFmpeg.
00005  *
00006  * FFmpeg is free software; you can redistribute it and/or
00007  * modify it under the terms of the GNU Lesser General Public
00008  * License as published by the Free Software Foundation; either
00009  * version 2.1 of the License, or (at your option) any later version.
00010  *
00011  * FFmpeg is distributed in the hope that it will be useful,
00012  * but WITHOUT ANY WARRANTY; without even the implied warranty of
00013  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
00014  * Lesser General Public License for more details.
00015  *
00016  * You should have received a copy of the GNU Lesser General Public
00017  * License along with FFmpeg; if not, write to the Free Software
00018  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
00019  */
00020 
00021 //#define DEBUG_ALIGNMENT
00022 #ifdef DEBUG_ALIGNMENT
00023 #define ASSERT_ALIGNED(ptr) assert(((unsigned long)ptr&0x0000000F));
00024 #else
00025 #define ASSERT_ALIGNED(ptr) ;
00026 #endif
00027 
00028 /* this code assume that stride % 16 == 0 */
00029 
00030 #define CHROMA_MC8_ALTIVEC_CORE \
00031         vsrc2ssH = (vec_s16)vec_mergeh(zero_u8v,(vec_u8)vsrc2uc);\
00032         vsrc3ssH = (vec_s16)vec_mergeh(zero_u8v,(vec_u8)vsrc3uc);\
00033 \
00034         psum = vec_mladd(vA, vsrc0ssH, v32ss);\
00035         psum = vec_mladd(vB, vsrc1ssH, psum);\
00036         psum = vec_mladd(vC, vsrc2ssH, psum);\
00037         psum = vec_mladd(vD, vsrc3ssH, psum);\
00038         psum = vec_sr(psum, v6us);\
00039 \
00040         vdst = vec_ld(0, dst);\
00041         ppsum = (vec_u8)vec_pack(psum, psum);\
00042         vfdst = vec_perm(vdst, ppsum, fperm);\
00043 \
00044         OP_U8_ALTIVEC(fsum, vfdst, vdst);\
00045 \
00046         vec_st(fsum, 0, dst);\
00047 \
00048         vsrc0ssH = vsrc2ssH;\
00049         vsrc1ssH = vsrc3ssH;\
00050 \
00051         dst += stride;\
00052         src += stride;
00053 
00054 #define CHROMA_MC8_ALTIVEC_CORE_SIMPLE \
00055 \
00056         vsrc0ssH = (vec_s16)vec_mergeh(zero_u8v,(vec_u8)vsrc0uc);\
00057         vsrc1ssH = (vec_s16)vec_mergeh(zero_u8v,(vec_u8)vsrc1uc);\
00058 \
00059         psum = vec_mladd(vA, vsrc0ssH, v32ss);\
00060         psum = vec_mladd(vE, vsrc1ssH, psum);\
00061         psum = vec_sr(psum, v6us);\
00062 \
00063         vdst = vec_ld(0, dst);\
00064         ppsum = (vec_u8)vec_pack(psum, psum);\
00065         vfdst = vec_perm(vdst, ppsum, fperm);\
00066 \
00067         OP_U8_ALTIVEC(fsum, vfdst, vdst);\
00068 \
00069         vec_st(fsum, 0, dst);\
00070 \
00071         dst += stride;\
00072         src += stride;
00073 
00074 void PREFIX_h264_chroma_mc8_altivec(uint8_t * dst, uint8_t * src,
00075                                     int stride, int h, int x, int y) {
00076   POWERPC_PERF_DECLARE(PREFIX_h264_chroma_mc8_num, 1);
00077     DECLARE_ALIGNED_16(signed int, ABCD[4]) =
00078                         {((8 - x) * (8 - y)),
00079                          ((    x) * (8 - y)),
00080                          ((8 - x) * (    y)),
00081                          ((    x) * (    y))};
00082     register int i;
00083     vec_u8 fperm;
00084     const vec_s32 vABCD = vec_ld(0, ABCD);
00085     const vec_s16 vA = vec_splat((vec_s16)vABCD, 1);
00086     const vec_s16 vB = vec_splat((vec_s16)vABCD, 3);
00087     const vec_s16 vC = vec_splat((vec_s16)vABCD, 5);
00088     const vec_s16 vD = vec_splat((vec_s16)vABCD, 7);
00089     LOAD_ZERO;
00090     const vec_s16 v32ss = vec_sl(vec_splat_s16(1),vec_splat_u16(5));
00091     const vec_u16 v6us = vec_splat_u16(6);
00092     register int loadSecond = (((unsigned long)src) % 16) <= 7 ? 0 : 1;
00093     register int reallyBadAlign = (((unsigned long)src) % 16) == 15 ? 1 : 0;
00094 
00095     vec_u8 vsrcAuc, vsrcBuc, vsrcperm0, vsrcperm1;
00096     vec_u8 vsrc0uc, vsrc1uc;
00097     vec_s16 vsrc0ssH, vsrc1ssH;
00098     vec_u8 vsrcCuc, vsrc2uc, vsrc3uc;
00099     vec_s16 vsrc2ssH, vsrc3ssH, psum;
00100     vec_u8 vdst, ppsum, vfdst, fsum;
00101 
00102   POWERPC_PERF_START_COUNT(PREFIX_h264_chroma_mc8_num, 1);
00103 
00104     if (((unsigned long)dst) % 16 == 0) {
00105         fperm = (vec_u8){0x10, 0x11, 0x12, 0x13,
00106                            0x14, 0x15, 0x16, 0x17,
00107                            0x08, 0x09, 0x0A, 0x0B,
00108                            0x0C, 0x0D, 0x0E, 0x0F};
00109     } else {
00110         fperm = (vec_u8){0x00, 0x01, 0x02, 0x03,
00111                            0x04, 0x05, 0x06, 0x07,
00112                            0x18, 0x19, 0x1A, 0x1B,
00113                            0x1C, 0x1D, 0x1E, 0x1F};
00114     }
00115 
00116     vsrcAuc = vec_ld(0, src);
00117 
00118     if (loadSecond)
00119         vsrcBuc = vec_ld(16, src);
00120     vsrcperm0 = vec_lvsl(0, src);
00121     vsrcperm1 = vec_lvsl(1, src);
00122 
00123     vsrc0uc = vec_perm(vsrcAuc, vsrcBuc, vsrcperm0);
00124     if (reallyBadAlign)
00125         vsrc1uc = vsrcBuc;
00126     else
00127         vsrc1uc = vec_perm(vsrcAuc, vsrcBuc, vsrcperm1);
00128 
00129     vsrc0ssH = (vec_s16)vec_mergeh(zero_u8v,(vec_u8)vsrc0uc);
00130     vsrc1ssH = (vec_s16)vec_mergeh(zero_u8v,(vec_u8)vsrc1uc);
00131 
00132     if (ABCD[3]) {
00133         if (!loadSecond) {// -> !reallyBadAlign
00134             for (i = 0 ; i < h ; i++) {
00135                 vsrcCuc = vec_ld(stride + 0, src);
00136                 vsrc2uc = vec_perm(vsrcCuc, vsrcCuc, vsrcperm0);
00137                 vsrc3uc = vec_perm(vsrcCuc, vsrcCuc, vsrcperm1);
00138 
00139                 CHROMA_MC8_ALTIVEC_CORE
00140             }
00141         } else {
00142             vec_u8 vsrcDuc;
00143             for (i = 0 ; i < h ; i++) {
00144                 vsrcCuc = vec_ld(stride + 0, src);
00145                 vsrcDuc = vec_ld(stride + 16, src);
00146                 vsrc2uc = vec_perm(vsrcCuc, vsrcDuc, vsrcperm0);
00147                 if (reallyBadAlign)
00148                     vsrc3uc = vsrcDuc;
00149                 else
00150                     vsrc3uc = vec_perm(vsrcCuc, vsrcDuc, vsrcperm1);
00151 
00152                 CHROMA_MC8_ALTIVEC_CORE
00153             }
00154         }
00155     } else {
00156         const vec_s16 vE = vec_add(vB, vC);
00157         if (ABCD[2]) { // x == 0 B == 0
00158             if (!loadSecond) {// -> !reallyBadAlign
00159                 for (i = 0 ; i < h ; i++) {
00160                     vsrcCuc = vec_ld(stride + 0, src);
00161                     vsrc1uc = vec_perm(vsrcCuc, vsrcCuc, vsrcperm0);
00162                     CHROMA_MC8_ALTIVEC_CORE_SIMPLE
00163 
00164                     vsrc0uc = vsrc1uc;
00165                 }
00166             } else {
00167                 vec_u8 vsrcDuc;
00168                 for (i = 0 ; i < h ; i++) {
00169                     vsrcCuc = vec_ld(stride + 0, src);
00170                     vsrcDuc = vec_ld(stride + 15, src);
00171                     vsrc1uc = vec_perm(vsrcCuc, vsrcDuc, vsrcperm0);
00172                     CHROMA_MC8_ALTIVEC_CORE_SIMPLE
00173 
00174                     vsrc0uc = vsrc1uc;
00175                 }
00176             }
00177         } else { // y == 0 C == 0
00178             if (!loadSecond) {// -> !reallyBadAlign
00179                 for (i = 0 ; i < h ; i++) {
00180                     vsrcCuc = vec_ld(0, src);
00181                     vsrc0uc = vec_perm(vsrcCuc, vsrcCuc, vsrcperm0);
00182                     vsrc1uc = vec_perm(vsrcCuc, vsrcCuc, vsrcperm1);
00183 
00184                     CHROMA_MC8_ALTIVEC_CORE_SIMPLE
00185                 }
00186             } else {
00187                 vec_u8 vsrcDuc;
00188                 for (i = 0 ; i < h ; i++) {
00189                     vsrcCuc = vec_ld(0, src);
00190                     vsrcDuc = vec_ld(15, src);
00191                     vsrc0uc = vec_perm(vsrcCuc, vsrcDuc, vsrcperm0);
00192                     if (reallyBadAlign)
00193                         vsrc1uc = vsrcDuc;
00194                     else
00195                         vsrc1uc = vec_perm(vsrcCuc, vsrcDuc, vsrcperm1);
00196 
00197                     CHROMA_MC8_ALTIVEC_CORE_SIMPLE
00198                 }
00199             }
00200         }
00201     }
00202     POWERPC_PERF_STOP_COUNT(PREFIX_h264_chroma_mc8_num, 1);
00203 }
00204 
00205 #undef CHROMA_MC8_ALTIVEC_CORE
00206 
00207 /* this code assume stride % 16 == 0 */
00208 static void PREFIX_h264_qpel16_h_lowpass_altivec(uint8_t * dst, uint8_t * src, int dstStride, int srcStride) {
00209     POWERPC_PERF_DECLARE(PREFIX_h264_qpel16_h_lowpass_num, 1);
00210     register int i;
00211 
00212     LOAD_ZERO;
00213     const vec_u8 permM2 = vec_lvsl(-2, src);
00214     const vec_u8 permM1 = vec_lvsl(-1, src);
00215     const vec_u8 permP0 = vec_lvsl(+0, src);
00216     const vec_u8 permP1 = vec_lvsl(+1, src);
00217     const vec_u8 permP2 = vec_lvsl(+2, src);
00218     const vec_u8 permP3 = vec_lvsl(+3, src);
00219     const vec_s16 v5ss = vec_splat_s16(5);
00220     const vec_u16 v5us = vec_splat_u16(5);
00221     const vec_s16 v20ss = vec_sl(vec_splat_s16(5),vec_splat_u16(2));
00222     const vec_s16 v16ss = vec_sl(vec_splat_s16(1),vec_splat_u16(4));
00223 
00224     vec_u8 srcM2, srcM1, srcP0, srcP1, srcP2, srcP3;
00225 
00226     register int align = ((((unsigned long)src) - 2) % 16);
00227 
00228     vec_s16 srcP0A, srcP0B, srcP1A, srcP1B,
00229               srcP2A, srcP2B, srcP3A, srcP3B,
00230               srcM1A, srcM1B, srcM2A, srcM2B,
00231               sum1A, sum1B, sum2A, sum2B, sum3A, sum3B,
00232               pp1A, pp1B, pp2A, pp2B, pp3A, pp3B,
00233               psumA, psumB, sumA, sumB;
00234 
00235     vec_u8 sum, vdst, fsum;
00236 
00237     POWERPC_PERF_START_COUNT(PREFIX_h264_qpel16_h_lowpass_num, 1);
00238 
00239     for (i = 0 ; i < 16 ; i ++) {
00240         vec_u8 srcR1 = vec_ld(-2, src);
00241         vec_u8 srcR2 = vec_ld(14, src);
00242 
00243         switch (align) {
00244         default: {
00245             srcM2 = vec_perm(srcR1, srcR2, permM2);
00246             srcM1 = vec_perm(srcR1, srcR2, permM1);
00247             srcP0 = vec_perm(srcR1, srcR2, permP0);
00248             srcP1 = vec_perm(srcR1, srcR2, permP1);
00249             srcP2 = vec_perm(srcR1, srcR2, permP2);
00250             srcP3 = vec_perm(srcR1, srcR2, permP3);
00251         } break;
00252         case 11: {
00253             srcM2 = vec_perm(srcR1, srcR2, permM2);
00254             srcM1 = vec_perm(srcR1, srcR2, permM1);
00255             srcP0 = vec_perm(srcR1, srcR2, permP0);
00256             srcP1 = vec_perm(srcR1, srcR2, permP1);
00257             srcP2 = vec_perm(srcR1, srcR2, permP2);
00258             srcP3 = srcR2;
00259         } break;
00260         case 12: {
00261             vec_u8 srcR3 = vec_ld(30, src);
00262             srcM2 = vec_perm(srcR1, srcR2, permM2);
00263             srcM1 = vec_perm(srcR1, srcR2, permM1);
00264             srcP0 = vec_perm(srcR1, srcR2, permP0);
00265             srcP1 = vec_perm(srcR1, srcR2, permP1);
00266             srcP2 = srcR2;
00267             srcP3 = vec_perm(srcR2, srcR3, permP3);
00268         } break;
00269         case 13: {
00270             vec_u8 srcR3 = vec_ld(30, src);
00271             srcM2 = vec_perm(srcR1, srcR2, permM2);
00272             srcM1 = vec_perm(srcR1, srcR2, permM1);
00273             srcP0 = vec_perm(srcR1, srcR2, permP0);
00274             srcP1 = srcR2;
00275             srcP2 = vec_perm(srcR2, srcR3, permP2);
00276             srcP3 = vec_perm(srcR2, srcR3, permP3);
00277         } break;
00278         case 14: {
00279             vec_u8 srcR3 = vec_ld(30, src);
00280             srcM2 = vec_perm(srcR1, srcR2, permM2);
00281             srcM1 = vec_perm(srcR1, srcR2, permM1);
00282             srcP0 = srcR2;
00283             srcP1 = vec_perm(srcR2, srcR3, permP1);
00284             srcP2 = vec_perm(srcR2, srcR3, permP2);
00285             srcP3 = vec_perm(srcR2, srcR3, permP3);
00286         } break;
00287         case 15: {
00288             vec_u8 srcR3 = vec_ld(30, src);
00289             srcM2 = vec_perm(srcR1, srcR2, permM2);
00290             srcM1 = srcR2;
00291             srcP0 = vec_perm(srcR2, srcR3, permP0);
00292             srcP1 = vec_perm(srcR2, srcR3, permP1);
00293             srcP2 = vec_perm(srcR2, srcR3, permP2);
00294             srcP3 = vec_perm(srcR2, srcR3, permP3);
00295         } break;
00296         }
00297 
00298         srcP0A = (vec_s16) vec_mergeh(zero_u8v, srcP0);
00299         srcP0B = (vec_s16) vec_mergel(zero_u8v, srcP0);
00300         srcP1A = (vec_s16) vec_mergeh(zero_u8v, srcP1);
00301         srcP1B = (vec_s16) vec_mergel(zero_u8v, srcP1);
00302 
00303         srcP2A = (vec_s16) vec_mergeh(zero_u8v, srcP2);
00304         srcP2B = (vec_s16) vec_mergel(zero_u8v, srcP2);
00305         srcP3A = (vec_s16) vec_mergeh(zero_u8v, srcP3);
00306         srcP3B = (vec_s16) vec_mergel(zero_u8v, srcP3);
00307 
00308         srcM1A = (vec_s16) vec_mergeh(zero_u8v, srcM1);
00309         srcM1B = (vec_s16) vec_mergel(zero_u8v, srcM1);
00310         srcM2A = (vec_s16) vec_mergeh(zero_u8v, srcM2);
00311         srcM2B = (vec_s16) vec_mergel(zero_u8v, srcM2);
00312 
00313         sum1A = vec_adds(srcP0A, srcP1A);
00314         sum1B = vec_adds(srcP0B, srcP1B);
00315         sum2A = vec_adds(srcM1A, srcP2A);
00316         sum2B = vec_adds(srcM1B, srcP2B);
00317         sum3A = vec_adds(srcM2A, srcP3A);
00318         sum3B = vec_adds(srcM2B, srcP3B);
00319 
00320         pp1A = vec_mladd(sum1A, v20ss, v16ss);
00321         pp1B = vec_mladd(sum1B, v20ss, v16ss);
00322 
00323         pp2A = vec_mladd(sum2A, v5ss, zero_s16v);
00324         pp2B = vec_mladd(sum2B, v5ss, zero_s16v);
00325 
00326         pp3A = vec_add(sum3A, pp1A);
00327         pp3B = vec_add(sum3B, pp1B);
00328 
00329         psumA = vec_sub(pp3A, pp2A);
00330         psumB = vec_sub(pp3B, pp2B);
00331 
00332         sumA = vec_sra(psumA, v5us);
00333         sumB = vec_sra(psumB, v5us);
00334 
00335         sum = vec_packsu(sumA, sumB);
00336 
00337         ASSERT_ALIGNED(dst);
00338         vdst = vec_ld(0, dst);
00339 
00340         OP_U8_ALTIVEC(fsum, sum, vdst);
00341 
00342         vec_st(fsum, 0, dst);
00343 
00344         src += srcStride;
00345         dst += dstStride;
00346     }
00347     POWERPC_PERF_STOP_COUNT(PREFIX_h264_qpel16_h_lowpass_num, 1);
00348 }
00349 
00350 /* this code assume stride % 16 == 0 */
00351 static void PREFIX_h264_qpel16_v_lowpass_altivec(uint8_t * dst, uint8_t * src, int dstStride, int srcStride) {
00352     POWERPC_PERF_DECLARE(PREFIX_h264_qpel16_v_lowpass_num, 1);
00353 
00354     register int i;
00355 
00356     LOAD_ZERO;
00357     const vec_u8 perm = vec_lvsl(0, src);
00358     const vec_s16 v20ss = vec_sl(vec_splat_s16(5),vec_splat_u16(2));
00359     const vec_u16 v5us = vec_splat_u16(5);
00360     const vec_s16 v5ss = vec_splat_s16(5);
00361     const vec_s16 v16ss = vec_sl(vec_splat_s16(1),vec_splat_u16(4));
00362 
00363     uint8_t *srcbis = src - (srcStride * 2);
00364 
00365     const vec_u8 srcM2a = vec_ld(0, srcbis);
00366     const vec_u8 srcM2b = vec_ld(16, srcbis);
00367     const vec_u8 srcM2 = vec_perm(srcM2a, srcM2b, perm);
00368     //srcbis += srcStride;
00369     const vec_u8 srcM1a = vec_ld(0, srcbis += srcStride);
00370     const vec_u8 srcM1b = vec_ld(16, srcbis);
00371     const vec_u8 srcM1 = vec_perm(srcM1a, srcM1b, perm);
00372     //srcbis += srcStride;
00373     const vec_u8 srcP0a = vec_ld(0, srcbis += srcStride);
00374     const vec_u8 srcP0b = vec_ld(16, srcbis);
00375     const vec_u8 srcP0 = vec_perm(srcP0a, srcP0b, perm);
00376     //srcbis += srcStride;
00377     const vec_u8 srcP1a = vec_ld(0, srcbis += srcStride);
00378     const vec_u8 srcP1b = vec_ld(16, srcbis);
00379     const vec_u8 srcP1 = vec_perm(srcP1a, srcP1b, perm);
00380     //srcbis += srcStride;
00381     const vec_u8 srcP2a = vec_ld(0, srcbis += srcStride);
00382     const vec_u8 srcP2b = vec_ld(16, srcbis);
00383     const vec_u8 srcP2 = vec_perm(srcP2a, srcP2b, perm);
00384     //srcbis += srcStride;
00385 
00386     vec_s16 srcM2ssA = (vec_s16) vec_mergeh(zero_u8v, srcM2);
00387     vec_s16 srcM2ssB = (vec_s16) vec_mergel(zero_u8v, srcM2);
00388     vec_s16 srcM1ssA = (vec_s16) vec_mergeh(zero_u8v, srcM1);
00389     vec_s16 srcM1ssB = (vec_s16) vec_mergel(zero_u8v, srcM1);
00390     vec_s16 srcP0ssA = (vec_s16) vec_mergeh(zero_u8v, srcP0);
00391     vec_s16 srcP0ssB = (vec_s16) vec_mergel(zero_u8v, srcP0);
00392     vec_s16 srcP1ssA = (vec_s16) vec_mergeh(zero_u8v, srcP1);
00393     vec_s16 srcP1ssB = (vec_s16) vec_mergel(zero_u8v, srcP1);
00394     vec_s16 srcP2ssA = (vec_s16) vec_mergeh(zero_u8v, srcP2);
00395     vec_s16 srcP2ssB = (vec_s16) vec_mergel(zero_u8v, srcP2);
00396 
00397     vec_s16 pp1A, pp1B, pp2A, pp2B, pp3A, pp3B,
00398               psumA, psumB, sumA, sumB,
00399               srcP3ssA, srcP3ssB,
00400               sum1A, sum1B, sum2A, sum2B, sum3A, sum3B;
00401 
00402     vec_u8 sum, vdst, fsum, srcP3a, srcP3b, srcP3;
00403 
00404     POWERPC_PERF_START_COUNT(PREFIX_h264_qpel16_v_lowpass_num, 1);
00405 
00406     for (i = 0 ; i < 16 ; i++) {
00407         srcP3a = vec_ld(0, srcbis += srcStride);
00408         srcP3b = vec_ld(16, srcbis);
00409         srcP3 = vec_perm(srcP3a, srcP3b, perm);
00410         srcP3ssA = (vec_s16) vec_mergeh(zero_u8v, srcP3);
00411         srcP3ssB = (vec_s16) vec_mergel(zero_u8v, srcP3);
00412         //srcbis += srcStride;
00413 
00414         sum1A = vec_adds(srcP0ssA, srcP1ssA);
00415         sum1B = vec_adds(srcP0ssB, srcP1ssB);
00416         sum2A = vec_adds(srcM1ssA, srcP2ssA);
00417         sum2B = vec_adds(srcM1ssB, srcP2ssB);
00418         sum3A = vec_adds(srcM2ssA, srcP3ssA);
00419         sum3B = vec_adds(srcM2ssB, srcP3ssB);
00420 
00421         srcM2ssA = srcM1ssA;
00422         srcM2ssB = srcM1ssB;
00423         srcM1ssA = srcP0ssA;
00424         srcM1ssB = srcP0ssB;
00425         srcP0ssA = srcP1ssA;
00426         srcP0ssB = srcP1ssB;
00427         srcP1ssA = srcP2ssA;
00428         srcP1ssB = srcP2ssB;
00429         srcP2ssA = srcP3ssA;
00430         srcP2ssB = srcP3ssB;
00431 
00432         pp1A = vec_mladd(sum1A, v20ss, v16ss);
00433         pp1B = vec_mladd(sum1B, v20ss, v16ss);
00434 
00435         pp2A = vec_mladd(sum2A, v5ss, zero_s16v);
00436         pp2B = vec_mladd(sum2B, v5ss, zero_s16v);
00437 
00438         pp3A = vec_add(sum3A, pp1A);
00439         pp3B = vec_add(sum3B, pp1B);
00440 
00441         psumA = vec_sub(pp3A, pp2A);
00442         psumB = vec_sub(pp3B, pp2B);
00443 
00444         sumA = vec_sra(psumA, v5us);
00445         sumB = vec_sra(psumB, v5us);
00446 
00447         sum = vec_packsu(sumA, sumB);
00448 
00449         ASSERT_ALIGNED(dst);
00450         vdst = vec_ld(0, dst);
00451 
00452         OP_U8_ALTIVEC(fsum, sum, vdst);
00453 
00454         vec_st(fsum, 0, dst);
00455 
00456         dst += dstStride;
00457     }
00458     POWERPC_PERF_STOP_COUNT(PREFIX_h264_qpel16_v_lowpass_num, 1);
00459 }
00460 
00461 /* this code assume stride % 16 == 0 *and* tmp is properly aligned */
00462 static void PREFIX_h264_qpel16_hv_lowpass_altivec(uint8_t * dst, int16_t * tmp, uint8_t * src, int dstStride, int tmpStride, int srcStride) {
00463     POWERPC_PERF_DECLARE(PREFIX_h264_qpel16_hv_lowpass_num, 1);
00464     register int i;
00465     LOAD_ZERO;
00466     const vec_u8 permM2 = vec_lvsl(-2, src);
00467     const vec_u8 permM1 = vec_lvsl(-1, src);
00468     const vec_u8 permP0 = vec_lvsl(+0, src);
00469     const vec_u8 permP1 = vec_lvsl(+1, src);
00470     const vec_u8 permP2 = vec_lvsl(+2, src);
00471     const vec_u8 permP3 = vec_lvsl(+3, src);
00472     const vec_s16 v20ss = vec_sl(vec_splat_s16(5),vec_splat_u16(2));
00473     const vec_u32 v10ui = vec_splat_u32(10);
00474     const vec_s16 v5ss = vec_splat_s16(5);
00475     const vec_s16 v1ss = vec_splat_s16(1);
00476     const vec_s32 v512si = vec_sl(vec_splat_s32(1),vec_splat_u32(9));
00477     const vec_u32 v16ui = vec_sl(vec_splat_u32(1),vec_splat_u32(4));
00478 
00479     register int align = ((((unsigned long)src) - 2) % 16);
00480 
00481     vec_s16 srcP0A, srcP0B, srcP1A, srcP1B,
00482               srcP2A, srcP2B, srcP3A, srcP3B,
00483               srcM1A, srcM1B, srcM2A, srcM2B,
00484               sum1A, sum1B, sum2A, sum2B, sum3A, sum3B,
00485               pp1A, pp1B, pp2A, pp2B, psumA, psumB;
00486 
00487     const vec_u8 mperm = (const vec_u8)
00488         {0x00, 0x08, 0x01, 0x09, 0x02, 0x0A, 0x03, 0x0B,
00489          0x04, 0x0C, 0x05, 0x0D, 0x06, 0x0E, 0x07, 0x0F};
00490     int16_t *tmpbis = tmp;
00491 
00492     vec_s16 tmpM1ssA, tmpM1ssB, tmpM2ssA, tmpM2ssB,
00493               tmpP0ssA, tmpP0ssB, tmpP1ssA, tmpP1ssB,
00494               tmpP2ssA, tmpP2ssB;
00495 
00496     vec_s32 pp1Ae, pp1Ao, pp1Be, pp1Bo, pp2Ae, pp2Ao, pp2Be, pp2Bo,
00497               pp3Ae, pp3Ao, pp3Be, pp3Bo, pp1cAe, pp1cAo, pp1cBe, pp1cBo,
00498               pp32Ae, pp32Ao, pp32Be, pp32Bo, sumAe, sumAo, sumBe, sumBo,
00499               ssumAe, ssumAo, ssumBe, ssumBo;
00500     vec_u8 fsum, sumv, sum, vdst;
00501     vec_s16 ssume, ssumo;
00502 
00503     POWERPC_PERF_START_COUNT(PREFIX_h264_qpel16_hv_lowpass_num, 1);
00504     src -= (2 * srcStride);
00505     for (i = 0 ; i < 21 ; i ++) {
00506         vec_u8 srcM2, srcM1, srcP0, srcP1, srcP2, srcP3;
00507         vec_u8 srcR1 = vec_ld(-2, src);
00508         vec_u8 srcR2 = vec_ld(14, src);
00509 
00510         switch (align) {
00511         default: {
00512             srcM2 = vec_perm(srcR1, srcR2, permM2);
00513             srcM1 = vec_perm(srcR1, srcR2, permM1);
00514             srcP0 = vec_perm(srcR1, srcR2, permP0);
00515             srcP1 = vec_perm(srcR1, srcR2, permP1);
00516             srcP2 = vec_perm(srcR1, srcR2, permP2);
00517             srcP3 = vec_perm(srcR1, srcR2, permP3);
00518         } break;
00519         case 11: {
00520             srcM2 = vec_perm(srcR1, srcR2, permM2);
00521             srcM1 = vec_perm(srcR1, srcR2, permM1);
00522             srcP0 = vec_perm(srcR1, srcR2, permP0);
00523             srcP1 = vec_perm(srcR1, srcR2, permP1);
00524             srcP2 = vec_perm(srcR1, srcR2, permP2);
00525             srcP3 = srcR2;
00526         } break;
00527         case 12: {
00528             vec_u8 srcR3 = vec_ld(30, src);
00529             srcM2 = vec_perm(srcR1, srcR2, permM2);
00530             srcM1 = vec_perm(srcR1, srcR2, permM1);
00531             srcP0 = vec_perm(srcR1, srcR2, permP0);
00532             srcP1 = vec_perm(srcR1, srcR2, permP1);
00533             srcP2 = srcR2;
00534             srcP3 = vec_perm(srcR2, srcR3, permP3);
00535         } break;
00536         case 13: {
00537             vec_u8 srcR3 = vec_ld(30, src);
00538             srcM2 = vec_perm(srcR1, srcR2, permM2);
00539             srcM1 = vec_perm(srcR1, srcR2, permM1);
00540             srcP0 = vec_perm(srcR1, srcR2, permP0);
00541             srcP1 = srcR2;
00542             srcP2 = vec_perm(srcR2, srcR3, permP2);
00543             srcP3 = vec_perm(srcR2, srcR3, permP3);
00544         } break;
00545         case 14: {
00546             vec_u8 srcR3 = vec_ld(30, src);
00547             srcM2 = vec_perm(srcR1, srcR2, permM2);
00548             srcM1 = vec_perm(srcR1, srcR2, permM1);
00549             srcP0 = srcR2;
00550             srcP1 = vec_perm(srcR2, srcR3, permP1);
00551             srcP2 = vec_perm(srcR2, srcR3, permP2);
00552             srcP3 = vec_perm(srcR2, srcR3, permP3);
00553         } break;
00554         case 15: {
00555             vec_u8 srcR3 = vec_ld(30, src);
00556             srcM2 = vec_perm(srcR1, srcR2, permM2);
00557             srcM1 = srcR2;
00558             srcP0 = vec_perm(srcR2, srcR3, permP0);
00559             srcP1 = vec_perm(srcR2, srcR3, permP1);
00560             srcP2 = vec_perm(srcR2, srcR3, permP2);
00561             srcP3 = vec_perm(srcR2, srcR3, permP3);
00562         } break;
00563         }
00564 
00565         srcP0A = (vec_s16) vec_mergeh(zero_u8v, srcP0);
00566         srcP0B = (vec_s16) vec_mergel(zero_u8v, srcP0);
00567         srcP1A = (vec_s16) vec_mergeh(zero_u8v, srcP1);
00568         srcP1B = (vec_s16) vec_mergel(zero_u8v, srcP1);
00569 
00570         srcP2A = (vec_s16) vec_mergeh(zero_u8v, srcP2);
00571         srcP2B = (vec_s16) vec_mergel(zero_u8v, srcP2);
00572         srcP3A = (vec_s16) vec_mergeh(zero_u8v, srcP3);
00573         srcP3B = (vec_s16) vec_mergel(zero_u8v, srcP3);
00574 
00575         srcM1A = (vec_s16) vec_mergeh(zero_u8v, srcM1);
00576         srcM1B = (vec_s16) vec_mergel(zero_u8v, srcM1);
00577         srcM2A = (vec_s16) vec_mergeh(zero_u8v, srcM2);
00578         srcM2B = (vec_s16) vec_mergel(zero_u8v, srcM2);
00579 
00580         sum1A = vec_adds(srcP0A, srcP1A);
00581         sum1B = vec_adds(srcP0B, srcP1B);
00582         sum2A = vec_adds(srcM1A, srcP2A);
00583         sum2B = vec_adds(srcM1B, srcP2B);
00584         sum3A = vec_adds(srcM2A, srcP3A);
00585         sum3B = vec_adds(srcM2B, srcP3B);
00586 
00587         pp1A = vec_mladd(sum1A, v20ss, sum3A);
00588         pp1B = vec_mladd(sum1B, v20ss, sum3B);
00589 
00590         pp2A = vec_mladd(sum2A, v5ss, zero_s16v);
00591         pp2B = vec_mladd(sum2B, v5ss, zero_s16v);
00592 
00593         psumA = vec_sub(pp1A, pp2A);
00594         psumB = vec_sub(pp1B, pp2B);
00595 
00596         vec_st(psumA, 0, tmp);
00597         vec_st(psumB, 16, tmp);
00598 
00599         src += srcStride;
00600         tmp += tmpStride; /* int16_t*, and stride is 16, so it's OK here */
00601     }
00602 
00603     tmpM2ssA = vec_ld(0, tmpbis);
00604     tmpM2ssB = vec_ld(16, tmpbis);
00605     tmpbis += tmpStride;
00606     tmpM1ssA = vec_ld(0, tmpbis);
00607     tmpM1ssB = vec_ld(16, tmpbis);
00608     tmpbis += tmpStride;
00609     tmpP0ssA = vec_ld(0, tmpbis);
00610     tmpP0ssB = vec_ld(16, tmpbis);
00611     tmpbis += tmpStride;
00612     tmpP1ssA = vec_ld(0, tmpbis);
00613     tmpP1ssB = vec_ld(16, tmpbis);
00614     tmpbis += tmpStride;
00615     tmpP2ssA = vec_ld(0, tmpbis);
00616     tmpP2ssB = vec_ld(16, tmpbis);
00617     tmpbis += tmpStride;
00618 
00619     for (i = 0 ; i < 16 ; i++) {
00620         const vec_s16 tmpP3ssA = vec_ld(0, tmpbis);
00621         const vec_s16 tmpP3ssB = vec_ld(16, tmpbis);
00622 
00623         const vec_s16 sum1A = vec_adds(tmpP0ssA, tmpP1ssA);
00624         const vec_s16 sum1B = vec_adds(tmpP0ssB, tmpP1ssB);
00625         const vec_s16 sum2A = vec_adds(tmpM1ssA, tmpP2ssA);
00626         const vec_s16 sum2B = vec_adds(tmpM1ssB, tmpP2ssB);
00627         const vec_s16 sum3A = vec_adds(tmpM2ssA, tmpP3ssA);
00628         const vec_s16 sum3B = vec_adds(tmpM2ssB, tmpP3ssB);
00629 
00630         tmpbis += tmpStride;
00631 
00632         tmpM2ssA = tmpM1ssA;
00633         tmpM2ssB = tmpM1ssB;
00634         tmpM1ssA = tmpP0ssA;
00635         tmpM1ssB = tmpP0ssB;
00636         tmpP0ssA = tmpP1ssA;
00637         tmpP0ssB = tmpP1ssB;
00638         tmpP1ssA = tmpP2ssA;
00639         tmpP1ssB = tmpP2ssB;
00640         tmpP2ssA = tmpP3ssA;
00641         tmpP2ssB = tmpP3ssB;
00642 
00643         pp1Ae = vec_mule(sum1A, v20ss);
00644         pp1Ao = vec_mulo(sum1A, v20ss);
00645         pp1Be = vec_mule(sum1B, v20ss);
00646         pp1Bo = vec_mulo(sum1B, v20ss);
00647 
00648         pp2Ae = vec_mule(sum2A, v5ss);
00649         pp2Ao = vec_mulo(sum2A, v5ss);
00650         pp2Be = vec_mule(sum2B, v5ss);
00651         pp2Bo = vec_mulo(sum2B, v5ss);
00652 
00653         pp3Ae = vec_sra((vec_s32)sum3A, v16ui);
00654         pp3Ao = vec_mulo(sum3A, v1ss);
00655         pp3Be = vec_sra((vec_s32)sum3B, v16ui);
00656         pp3Bo = vec_mulo(sum3B, v1ss);
00657 
00658         pp1cAe = vec_add(pp1Ae, v512si);
00659         pp1cAo = vec_add(pp1Ao, v512si);
00660         pp1cBe = vec_add(pp1Be, v512si);
00661         pp1cBo = vec_add(pp1Bo, v512si);
00662 
00663         pp32Ae = vec_sub(pp3Ae, pp2Ae);
00664         pp32Ao = vec_sub(pp3Ao, pp2Ao);
00665         pp32Be = vec_sub(pp3Be, pp2Be);
00666         pp32Bo = vec_sub(pp3Bo, pp2Bo);
00667 
00668         sumAe = vec_add(pp1cAe, pp32Ae);
00669         sumAo = vec_add(pp1cAo, pp32Ao);
00670         sumBe = vec_add(pp1cBe, pp32Be);
00671         sumBo = vec_add(pp1cBo, pp32Bo);
00672 
00673         ssumAe = vec_sra(sumAe, v10ui);
00674         ssumAo = vec_sra(sumAo, v10ui);
00675         ssumBe = vec_sra(sumBe, v10ui);
00676         ssumBo = vec_sra(sumBo, v10ui);
00677 
00678         ssume = vec_packs(ssumAe, ssumBe);
00679         ssumo = vec_packs(ssumAo, ssumBo);
00680 
00681         sumv = vec_packsu(ssume, ssumo);
00682         sum = vec_perm(sumv, sumv, mperm);
00683 
00684         ASSERT_ALIGNED(dst);
00685         vdst = vec_ld(0, dst);
00686 
00687         OP_U8_ALTIVEC(fsum, sum, vdst);
00688 
00689         vec_st(fsum, 0, dst);
00690 
00691         dst += dstStride;
00692     }
00693     POWERPC_PERF_STOP_COUNT(PREFIX_h264_qpel16_hv_lowpass_num, 1);
00694 }
libavcodec/ppc/h264_template_altivec.c