AWS är superdatorjätten som jag aldrig visste fanns

AWS är superdatorjätten som jag aldrig visste fanns

Många känner säkert till AWS som världens största distributör av molntjänster. Men mycket färre ser Amazons dotterbolag som en superdatorjätte.

Detta beror till stor del på att AWS gärna verkar i den mindre sexiga delen av HPC-spektrumet (high-performance computing), bort från de glänsande test-of-term system som pryder toppen av topp XNUMX-rankningarna.

Istället sysslar organisationen med att demokratisera tillgången till superdatorresurser, att göra tillgängliga molnbaserade tjänster som kan nås av otaliga företag och akademiska institutioner.

amazonas

(Bildkredit: Amazon)

En av de personer som ansvarar för att uppnå detta mål är Brendan Bouffler, av vissa känd som "Boof", som, i sin roll som HPC Developer Relations Manager, fungerar som en ombudsman mellan kunder till tjänsten och HPC:s ingenjörsteam.

Som någon med många års erfarenhet av att bygga superdatorer hävdar han att det mot alla odds ofta är de mindre maskinerna som har störst inverkan, eftersom förstklassig prestanda inte nödvändigtvis är den viktigaste måtten.

"Det är roligt att designa riktigt stora maskiner, för det är ett komplext problem som man måste plocka isär", sa han till oss. "Men jag har alltid haft roligare att bygga mindre system, eftersom det är där det mesta av vetenskapen görs."

Uppenbarelsen hos AWS var att denna inställning till HPC, där produktivitet prioriteras framför prestanda, effektivt kunde flyttas till molnet.

HPC i molnet

Medan storskaliga superdatorer som Fugaku, som för närvarande topplista prestanda, är bra exempel på hur långt den senaste hårdvaran kan drivas, är dessa system kuriosa först och verktyg först efter det.

Som Bouffler förklarar är den största nackdelen med stora maskiner på plats att de är lätta att komma åt. Ett system som kan bryta exaskalbarriären skulle vara en häpnadsväckande teknisk bedrift, men av liten praktisk användning om forskare måste stå i kö i veckor för att använda det.

"En hel del människor som bygger superdatorer, inklusive han själv, faller i fällan att oroa sig för att sänka 1% mer prestanda. Det är lovvärt på en nivå, men besattheten betyder att det är lätt att missa frukten som finns till hands." berättade Bouffler för oss.

”Det som är mest väsentligt är utredningstakten; Det är här möjligheten finns för forskarsamhället.

Supercomputadora Fugaku

Fugaku, den kraftfullaste superdatorn på planeten. (Bildkredit: RIKEN)

Som sådan handlar AWS tillvägagångssätt lika mycket om tillgänglighet och elasticitet som om prestanda. Genom företagets as-a-service-erbjudanden kan kunderna omedelbart lansera sina HPC-arbetsbelastningar i molnet och skala tilldelade resurser upp eller ner efter behov, samtidigt som de eliminerar slöseri.

"Det här handlar om att skapa enormt rättvis tillgång," sa Bouffler. "Om du har budgeten och viljan att åtgärda ett problem har du de IT-resurser du behöver."

Fördelarna med ett sådant system har varit särskilt uppenbara sedan pandemins början, eftersom företag som Moderna och AstraZeneca använde AWS-instanser för att utveckla vacciner.

Enligt Bouffler kanske världen inte har ett vaccin idag (för att inte tala om flera) utan molnbaserad HPC, vilket gör att forskningen kan starta snabbt och öka med ett ögonblicks varsel.

”Forskarna vi arbetade med ville ha flexibilitet och fri vildhet. Om du gör datoranvändning osynlig och lägger makten i händerna på de med smarta idéer, kan de göra verkligt kraftfulla saker.

Vårt datacenter, vårt kisel, våra regler

Bouffler är den första som håller med om att HPC-gemenskapen inte ägnar mycket uppmärksamhet åt vad som händer inuti AWS. Mas insisterar på att mycket innovation kommer från organisationen.

Historiskt har till exempel molnbaserade instanser noterats för att köra så kallade "komplicerade sida-vid-sida"-arbetsbelastningar som enkelt kan delas upp i en enorm volym av separata uppgifter, men presterar sämre när kommunikationen mellan noderna är bristfällig .

Istället för att ta med InfiniBand till molnet, uppfann AWS ett annat sätt att lösa problemet. Företaget har utvecklat en teknik som heter Elastic Fabric Adapter (EFA), som verkar leverera applikationsprestanda jämförbar med den för lokala HPC-kluster för komplexa arbetsbelastningar som maskininlärning och aktiv vätskesimulering.

Till skillnad från InfiniBand, som skickar varje datapaket från A till B via snabbast möjliga väg, distribuerar EFA paketen i hela nätverket.

"Vi behövde hitta ett sätt att köra HPC i molnet, men vi ville inte att molnet skulle se ut som ett HPC-kluster. Istället bestämde vi oss för att designa om HPC-tyget för att dra fördel av molnattribut”, förklarade Bouffler.

"EFA svärmar utbuktningar i nästan varje körfält på en gång, vilket ger lika bra prestanda, om inte bättre. Skalningen slutar inte heller när nätverket är överbelastat; systemet förutsätter överbelastning från början, så prestandan förblir stabil även när HPC-arbetet växer .

AWS återuppfinner Adam Selipsky

AWS-direktören Adam Selipsky på scen på AWS re:Invest XNUMX. (Bildkredit: Future/Mike Moore)

Under XNUMX meddelade AWS att de skulle börja utveckla sin Arm-baserade anpassade serverprocessor kallad Graviton. Även om Graviton-serien inte enbart var inriktad på HPC-användningsfall, öppnade Graviton-serien flera dörrar för AWS, vilket gjorde det möjligt för företaget att ta bort alla funktioner som inte var väsentliga för dess behov och duplicera de som var.

"När du designar något så stort som ett moln måste du acceptera att saker och ting kommer att misslyckas," sa Bouffler. "Sammantaget innebär att du tar bort onödig funktionalitet att du har betydligt strängare kontroll över felprofilen, och kiselkontroll gav oss en relaterad fördel."

"Graviton3 är optimerat för våra datacenter, eftersom vi är den enda användaren för dessa saker. Vi kan våra villkor, medan andra tillverkare måste acceptera de konstigaste och mest ovanliga datacenterkonfigurationerna.

Vid förra årets AWS re:Invent, som LaComparacion Pro deltog i, lanserade företaget nya EC2-instanser som drivs av Graviton3, som skulle erbjuda upp till tjugofem procent högre datorprestanda och sextio procent högre energieffektivitet än nuvarande generation. vissa fall. scenarier.

Det finns också ett antal HPC-centrerade egenheter inbyggda i Graviton3, såsom XNUMX GB/s minnesbandbredd, som typiska företagsarbetsbelastningar aldrig skulle nå gränsen, förklarade Bouffler. "Vi driver i alla riktningar för HPC, det är vad vi alltid gör."

Ju mer HPC, desto bättre

På frågan om AWS nästa destination för sina HPC-tjänster, citerade Bouffler ett favoritordspråk från Jeff Besoz: "Ingen användare har bett om mindre mångfald och högre kostnader."

Framöver kommer Bouffler och hans team att fortsätta att kartlägga kunder och arbeta för att erbjuda ett bredare utbud av instanser för att möta deras specifika behov, med ett bredare utbud av hårdvarualternativ.

Ett annat mål kommer att vara att minska kostnaderna för att köra HPC-arbetsbelastningar i molnet. Med det målet i åtanke lanserade AWS en ny AMD EPYC Milan-baserad EC2-instans i januari kallad Hpc6a, som är två tredjedelar billigare än den närmaste jämförbara x86-motsvarigheten. Bouffler säger att AWS har gjort "alla typer av dumma saker" för att minska kostnaderna.

Dessa är inte bara akademiska och vetenskapliga användningsfall. AWS arbetar med ett brett spektrum av företag, från Western Digital till Formel 1, för att hjälpa till att påskynda produktdesign och hoppas kunna expandera till ett bredare spektrum av industrier i framtiden.

"Vi tar med HPC till varje skrymsle av ekonomin," tillade Bouffler. "Och ju fler, desto roligare."