Техника оптимизации под линуха

       

тот же цикл, записанный в векторной нотации


Старшие представители процессоров Pentium могут обрабатывать до 8 порций данных параллельно, и если N превышает это число, приходится поступать так:

// обрабатываем первые (N-N%VF) ячеек векторным способом

// VF –кол-во порций данных, которые процессор будет обрабатывать за один раз

for (i=0; i<XXL; i+=VF)

       a[i:i+VF] = a[i:i+VF] + b[i:i+VF];

// обрабатываем оставшийся "хвост" обычным способом

for (XXL -= VF ; i < XXL; i++)

       a[i] = a[i] + b[i];



Содержание раздела