Investigadors de la UPV i la UJI presenten en el SuperComputing a Seattle una tecnologia que permet reduir costos en clusters d’altes prestacions

rCUDA, una nova tecnologia desenvolupada per investigadors de la Universitat Politècnica de València i la Universitat Jaume I de Castelló, va ser una de les protagonistes en l’exposició internacional de major prestigi en el camp de la supercomputació, SuperComputing 2011, celebrada a Seattle la setmana passada. L’eina dissenyada des de la UJI i la UPV permet l’accés remot a acceleradors gràfics (GPUs) en un cluster de computadors d’altes prestacions (clúster HPC).

El sistema plantejat consisteix en una capa programari que permet que un programa que s’està executant en un dels computadors del cluster use, a través de la xarxa, els acceleradors gràfics instal·lats en el cluster, independentment del computador concret al que estiguen connectats, amb la finalitat d’accelerar operacions complexes de càlcul. Sense la tecnologia rCUDA, un programa que s’està executant en un dels computadors solament pot usar l’accelerador instal·lat en el seu mateix node. Amb rCUDA és possible que els centenars o milers de nodes que conformen un cluster d’altes prestacions compartisquen els accelerats gràfics instal·lats en ell, aconseguint el 100% d’eficiència. Açò permet estalviar energia, en poder-se utilitzar un menor nombre de processadors gràfics, atès que ja no cal instal·lar un accelerador en cada node del cluster, reduint també la inversió en material i disminuint la despesa en manteniment.

“Aquesta tecnologia suposa un pas molt important per a optimitzar el rendiment dels centres de dades i centres de computació d’altes prestacions que utilitzen GPUs per a traure més rendiment a les seues aplicacions, reduint el temps d’execució. Imaginem que cal fer una simulació d’un volcà; si es fa sense targeta gràfica el procés pot tardar dies, atès que hauria d’executar-se completament en la CPU del computador, que encara que són molt potents actualment , tenen les seues limitacions; l’ús d’una GPU ho accelera notablement, atès que les GPUs realitzen les operacions de còmput de manera més eficient que les CPUs. Si emprem rCUDA aconseguirem a més una reducció significativa de consum energètic”, apunta Federico Silla, investigador del Grup d’Arquitectures Paral·leles (GAP) de la UPV.

La raó per a aquesta reducció en el consum és que sense rCUDA caldria instal·lar una GPU en cadascun dels nodes del cluster. “No obstant açò, l’habitual en aquest cas és que les GPUs no s’usen el 100% del temps. No obstant açò, quan no estan realitzant còmputs, les GPUs segueixen consumint una quantitat gens menyspreable d’energia, que acaba sent balafiada. Amb rCUDA podem reduir el nombre de GPUs en el cluster, i per tant consumir menys energia. A més, en compartir les GPUs entre diferents aplicacions que s’estan executant al mateix temps en els diversos nodes del cluster, augmentem la seua utilització, fent un ús molt més eficient de l’energia consumida”, indica Federico Silla.

L’aplicació ha sigut desenvolupada per l’estudiant de doctorat de la UPV, Antonio J. Peña, dins de la investigació que realitza actualment per a la seua tesi doctoral en la Universitat Jaume I, dirigida pels professors Federico Silla – GAP UPV – i Rafael Maig, del Grup d’Arquitectures i Computació d’Altes Prestacions de la Universitat Jaume I, els qui també van participar en la demostració.

La demostració realitzada en la fira de supercomputació va ser possible gràcies a la invitació de l’empresa Mellanox Technologies, la companyia més important en la implementació de la tecnologia InfiniBand, un protocol de comunicacions obert a qualsevol empresa i un proveïdor de serveis per a servidors i emmagatzematge. “Mellanox es va interessar per la nostra tecnologia ja en el Supercomputing de 2010 a Nova Orleans. Mellanox considera que la nostra tecnologia és altament innovadora i permet utilitzar de forma molt flexible els acceleradors basats en GPUs, sent un excel·lent complement als seus productes. A més, ens ha convidat a presentar el nostre treball en diverses conferències i fòrums a Suïssa, Alemanya, i Xina”, destaca Federico Silla.

Antonio Peña, que actualment es troba en el Centre de Supercomputació de Suïssa provant aquest sistema, defensarà pròximament el seu treball de recerca. Segons el professor Maig, l’aplicació pràctica d’aquesta tesi “és el cicle perfecte per a un treball doctoral: fer una investigació que després es puga aplicar a sistemes reals millorant la seua eficiència”.

Els grups d’investigació d’Arquitectures Paral·leles de la Universitat Politècnica de València i d’Arquitectures i Computació d’Altes Prestacions de la Universitat Jaume I treballen conjuntament en aquesta tecnologia des de fa més de dos anys. L’equip de treball de rCUDA està format, a més del doctorand i els seus directors de tesis, per José Duato, Javier Nadal i Carlos Reaño, de la UPV i Enrique Quintana i Adrián Castelló de la UJI.

El món de la computació treballa per a aconseguir en 2020 el primer computador amb capacitat exaflop que permetrà fer 10 elevat a 18 operacions per segon i resoldre càlculs de qüestions relacionades amb el canvi climàtic o la seqüenciació genòmica a les quals l’actual tecnologia no pot donar resposta; i entre les tecnologies que s’utilitzen per a desenvolupar aquest nou computador es troba el GPU Computing (l’ús de la unitat de processament gràfic per a realitzar operacions de càlcul científic).