тот же цикл, записанный в векторной нотации
Старшие представители процессоров Pentium могут обрабатывать до 8 порций данных параллельно, и если N превышает это число, приходится поступать так:
// обрабатываем первые (N-N%VF) ячеек векторным способом
// VF –кол-во порций данных, которые процессор будет обрабатывать за один раз
for (i=0; i<XXL; i+=VF)
a[i:i+VF] = a[i:i+VF] + b[i:i+VF];
// обрабатываем оставшийся "хвост" обычным способом
for (XXL -= VF ; i < XXL; i++)
a[i] = a[i] + b[i];