Vaikka Mahdin kytkentäverkon 0,5 mikrosekunnin latenssi voi kuulostaa vaikuttavalta, pystyisi 2.6 GHz kellotaajuudella toimiva suoritinydin tekemään tässä ajassa 20 000 liukulukuoperaatiota. Tämä tarkoittaa, että jokaisen tiedonsiirto-operaation yhteydessä 20 000 liukuoperaatiota menee hukkaan. Kun huomioidaan myös kaistanleveys, 20 000 liukuluvun siirtäminen 200 Gb/s:n kaistanleveydellä vie noin 6,4 mikrosekuntia, missä ajassa suoritinydin voisi teoriassa suorittaa yli 270 000 liukulukuoperaatiota. Näin ollen suoritinydin saavuttaa vain noin 7 % teoreettisesta huippusuorituskyvystään olettaen, että käskytason rinnakkaisuutta ja vektorointia pystytään hyödyntämään täysimääräisesti.
Käytännössä tilanne ei ole näin huono, sillä kaikkia tietoja ei tarvitse siirtää kytkentäverkon kautta, ja samoilla tiedoilla tehdään usein monia aritmeettisia operaatioita. Jotkin ongelmat ovat lähempänä äärimmäisen rinnakkaista tapausta. Näissä tapauksissa solmun keskusmuisti on yleensä pääasiallinen pullonkaula. Eri välimuistit, algoritmiset valinnat ja ohjelmointitekniikat voivat parantaa saavutettavissa olevaa suorituskykyä, ja joissakin tapauksissa esimerkiksi laskentaa ja tiedonsiirtoa voidaan suorittaa samanaikaisesti.
Erilaisilla tieteellisillä ongelmilla on erilaiset luontaiset rajat, kuten kutakin muisti- tai tiedonsiirto-operaatiota kohden suoritettavien laskutoimisten määrä tai se, kuinka usein tiedot on kopioitava suorittimien ja grafiikkasuorittimien välillä. Parhaissa tapauksissa, kuten LINPACK-vertailuarvon kohdalla, on mahdollista saavuttaa jopa 80 prosenttia supertietokoneen teoreettisesta huippusuorituskyvystä.
Sisältää "Supercomputing"-verkkokurssin materiaaleja (https://www.futurelearn.com/courses/supercomputing/), Edinburgh Supercomputing Center (EPCC), Creative Commons SA-BY -lisenssi