Arrostire nello spazio / Roast in space
Arrostire nello spazio / Roast in space
La spinta a mettere in orbita sistemi informatici delicati e di fascia alta sta spostando l'attenzione sulla schermatura. Di Chris Edwards
Lo spazio non è clemente con l'elettronica. L'irradiazione solare rende persino il raffreddamento una sfida. A ciò si aggiunge il costante bombardamento di ioni ad alta energia provenienti da quasar e supernove distanti, occasionalmente intensificato dalle tempeste solari stesse.
Ma l'energia a basso costo si sta affermando come un motivo valido per impiegare una potenza di calcolo molto maggiore nello spazio, insieme alla necessità di supportare le costellazioni sempre più numerose di satelliti per l'osservazione della Terra.
La crescente richiesta di potenza di calcolo da parte degli attuali modelli di intelligenza artificiale generativa ha posto l'attenzione sui costi energetici. Se questi continueranno a crescere al ritmo osservato negli ultimi cinque anni, la logica alla base dell'IA spaziale diventa semplice. Utilizzando orbite eliosincrone sufficientemente elevate, i satelliti dotati di acceleratori hardware possono beneficiare di un flusso quasi costante di fotoni gratuiti che colpiscono pannelli solari di dimensioni chilometriche.
Anche su scala ridotta, esiste una logica precisa per lanciare in orbita moduli di calcolo molto più piccoli. Grazie alle comunicazioni ottiche nello spazio libero, la larghezza di banda è più facilmente reperibile tra i satelliti che tra questi e le stazioni di terra. Finché collegamenti ottici simili con la Terra non diventeranno comuni, l'industria spaziale soffrirà di un collo di bottiglia nelle comunicazioni per accedere ai servizi di calcolo a terra.
Quindi, molto prima che i data center inizino a trasferire i carichi di lavoro dalle loro controparti terrestri, i satelliti in orbita gestiranno le attività di edge computing per conto di altri satelliti dotati di sensori. Alcuni sono già arrivati nello spazio. Aethero ha lanciato il suo Deimos, che integra un'unità di elaborazione grafica (GPU) Nvidia Jetson Orin, nell'estate del 2024.
Il problema principale che chiunque voglia potenziare la potenza di calcolo nello spazio si trova ad affrontare risiede nell'enorme divario tra le condizioni per cui sono progettati i processori di livello commerciale e quelle che dovranno affrontare, anche a poche centinaia di chilometri dalla superficie terrestre.
I problemi riscontrati lo scorso anno dopo un aggiornamento software che ha portato al blocco a terra di 6000 aerei Airbus hanno dimostrato quanto sia facile sottovalutare la robustezza di un sistema, anche in quelli progettati per gestire i livelli di radiazione presenti a soli 30 km sul livello del mare. Sebbene elevati, questi livelli sono ben lontani da quelli riscontrati nelle zone di accumulo di particelle delle fasce di Van Allen, centinaia di chilometri più in alto.
Sconvolgimenti da singolo evento
Poiché il peso è un fattore cruciale per contenere i costi di lancio, l'approccio tradizionale alla progettazione elettronica dei satelliti si concentra sul rafforzamento dei singoli componenti, proteggendoli sia dai danni a lungo termine che dagli errori dovuti a eventi singoli (SEU). Le collisioni con protoni, neutroni ed ioni pesanti possono generare una cascata di particelle cariche in numero sufficiente a modificare lo stato dei registri e delle celle di memoria volatile. Senza ricorrere a tecnologie meno vulnerabili come la memoria flash o la RAM magnetica, la soluzione più comune per gestire gli SEU è l'utilizzo di codici di correzione degli errori combinati con la pulizia periodica della memoria per eliminare i bit alterati.
Per le parti del sistema che richiedono un'elevata affidabilità, ciò va di pari passo con i sistemi ridondanti, che funzionano in parallelo oppure eseguendo ripetutamente le stesse funzioni software e verificandone i risultati.
Considerato l'alto costo degli acceleratori per l'IA e l'enorme quantità di memoria veloce di cui necessitano, tale ridondanza rischia di essere un ostacolo insormontabile per i data center in orbita. Se è necessario triplicare ogni GPU per avvicinarsi anche solo lontanamente alle prestazioni delle macchine sulla Terra, è improbabile che l'energia gratuita possa salvare il progetto. Ma questo non è il piano delle aziende che lavorano a questi progetti.
Starcloud mira a replicare il più possibile le condizioni a livello del suolo all'interno dell'involucro del satellite. L'unico modo per raggiungere questo obiettivo è utilizzare una schermatura molto più estesa rispetto ai progetti convenzionali. Questa soluzione è tutt'altro che economica. Tuttavia, le economie di scala la renderanno più conveniente: il costo della schermatura aumenta con la superficie dell'involucro. Con un raffreddamento adeguato, la capacità di calcolo dovrebbe invece aumentare proporzionalmente al volume.
I pannelli di raffreddamento e solari avranno un diametro di chilometri, fornendo energia ai moduli e dissipando il calore da essi generato, grazie ad una struttura centrale che collega il satellite al suo asse principale. Un impianto di queste dimensioni dovrebbe essere in grado di supportare moduli densamente assemblati che utilizzano il raffreddamento a liquido. Ed il raffreddamento a liquido offre vantaggi particolari nello spazio.
Alcuni progetti per missioni su Marte prevedono pareti d'acqua che avvolgono gli alloggi dell'equipaggio, svolgendo la duplice funzione di bloccare i raggi cosmici e fungere da serbatoio per gli astronauti. Il fluido pompato sopra e sotto i componenti sensibili come le GPU dovrebbe proteggere da alcuni raggi cosmici.
La parte principale della protezione risiede nella schermatura solida. Tradizionalmente, la soluzione è stata costituita da strati sufficientemente spessi di alluminio, talvolta rinforzati con tantalio o tungsteno. Il motivo per cui l'acqua funziona da scudo è dovuto all'idrogeno che contiene. Questo rende i polimeri organici armi forse inaspettate contro le particelle subatomiche ad alta energia. Plasteel, una matrice di nanoparticelle metalliche incorporate in un polimero, è la risposta di Cosmic Shielding Corporation e contribuisce a proteggere la GPU del satellite Deimos.
Opzioni di schermatura
Non è facile stabilire quali opzioni di schermatura funzioneranno meglio. La ricerca condotta presso la Purdue University ha dimostrato che materiali apparentemente validi, e talvolta costosi, possono offrire vantaggi minimi rispetto al normale alluminio. In attesa di una svolta nella simulazione dei materiali, il segreto per realizzare questo tipo di protezione risiede in test approfonditi. A meno di non lanciare un satellite in orbita ed eseguire esperimenti a distanza, come ha fatto Cosmic Shielding nel 2022 sfruttando un lancio del produttore di satelliti gallese Space Forge, tali test sono più facili a dirsi che a farsi.
Sulla Terra esistono fonti di protoni, neutroni e ioni pesanti, ma non tutte concentrate in un unico acceleratore di particelle. Inoltre, gli esperimenti sulla robustezza a livello di dispositivo sono facilmente falsati dalle interazioni con i componenti vicini e con la scheda di supporto stessa, come dimostrato dal lavoro di Ivan Rodriguez-Ferrandez e colleghi dell'Università Politecnica di Calalunya (UPC).
I risultati di tali esperimenti possono fornire risposte sorprendenti. Analogamente ai dispositivi resistenti alle radiazioni che si basano sugli strati conduttivi ultrasottili dei processi FD-SOI (Fully Depleted Silicon-on-Insulator), i processori e le GPU di nuova generazione possono gestire livelli di radiazione più elevati senza subire gravi danni. Questo, ovviamente, a patto che si tratti del tipo di radiazione appropriato, un fattore che influenzerà la scelta della schermatura.
Con gli SEU (Single Event Upset) indotti da protoni, i ricercatori dell'UPC hanno scoperto che il Jetson Orin di Nvidia, prodotto con un processo a 8 nm e destinato al settore automobilistico, presentava una sezione d'urto di SEU inferiore, indice di una maggiore affidabilità, rispetto al precedente Xavier, realizzato con un processo a 12 nm. Molti degli SEU rilevati dall'hardware di gestione dell'affidabilità integrato nel chip erano errori di memoria correggibili o causavano discrepanze di parità nelle transazioni del bus. Alcuni di questi problemi di parità hanno portato a riavvii completi. Tuttavia, la corruzione silenziosa dei dati si è rivelata rara. Ciò potrebbe limitare la necessità di ridondanza modulare, sebbene la velocità di elaborazione delle applicazioni potrebbe risentirne qualora i riavvii si rivelassero troppo frequenti.
Esiste un ostacolo alla gestione degli errori. Le GPU odierne non rendono gli errori di inversione di bit altrettanto facili da individuare come accadeva con il supporto di Arm nei processori host. Gli acceleratori possono generare codici di errore, ma questi non sono documentati pubblicamente. Almeno non ancora. I satelliti attuali monitorano i processori con circuiti personalizzati programmati in dispositivi logici programmabili resistenti alle radiazioni, come PolarFire di Microchip Technology.
I dispositivi CMOS più densi possono anche rivelarsi meno suscettibili alle radiazioni ionizzanti a lungo termine. Sebbene abbia analizzato missioni LEO di breve durata, con una permanenza in orbita inferiore a un anno, un rapporto della NASA di fine 2020 ha rilevato che i componenti CMOS più avanzati presentano un vantaggio in termini di dose ionizzante totale (TID). Poiché gli ossidi isolanti forniscono i principali siti di intrappolamento che influenzano la tensione di soglia del transistor, i materiali più sottili nei CMOS avanzati hanno semplicemente una minore probabilità di essere colpiti da particelle ad alta energia.
Gli esperimenti dell'UPC hanno indicato che il TID può raggiungere valori fino a 50 krad prima che si verifichi un degrado significativo. Senza schermatura, il TID raggiungerebbe quel livello in poche settimane in orbita terrestre bassa, secondo esperimenti condotti utilizzando satelliti come l'Arcsecond Pico Star Tracker. Ma anche una semplice schermatura in alluminio di 2 mm ha ridotto il TID in quell'esperimento di tre ordini di grandezza.
L'economia di gestire computer ad alta densità nello spazio potrebbe non risultare sostenibile senza significativi miglioramenti nei costi di lancio. Tuttavia, realizzando array più grandi, le aziende spaziali potrebbero essere in grado di riutilizzare gran parte di ciò che funziona sulla Terra e aspettarsi che funzioni in orbita abbastanza a lungo da rendere obsoleto l'hardware prima che venga danneggiato irreparabilmente.
ENGLISH
A drive to put delicate, high-end computing in orbit is shifting attention to shielding. By Chris Edwards
Space is not kind to electronics. Solar irradiation makes even cooling a challenge. Then add the constant bombardment of high-energy ions from distant quasars and supernovae, occasionally augmented with the Sun’s own storms.
But cheap energy is now emerging as a reason to put a lot more computing in space, alongside the need to serve growing constellations of Earth-observing satellites.
The hunger for the levels of computing power required by the current crop of generative-AI models has put the focus on energy costs. If that continues to grow at the pace we have seen over the past five years, the rationale for space-borne AI is simple. If they use sun-synchronous orbits that are high enough, satellites with hardware accelerators packed inside can benefit from near-constant free photons hitting kilometre-scale solar arrays.
Even at a smaller scale, there is a logical rationale for launching much smaller computing modules into orbit. Thanks to free-space optical communications, bandwidth is easier to come by between satellites than between them and ground stations. Until similar free-space optical links to Earth become commonplace, the space industry suffers from a communications bottleneck to access computing services on the ground.
So, long before any data centres start offloading their counterparts on the ground, orbiting satellites will be handling edge-computing tasks for peers armed with sensors. Some have already made it into space. Aethero launched its Deimos, which incorporates an Nvidia Jetson Orin graphics processing unit (GPU), in summer 2024.
The big problem facing anyone aiming to put more computing in space lies in the yawning gap between the conditions for which commercial-grade processors are designed and what they will face, even just a few hundred kilometres above the surface of Earth.
The problems encountered last year after a software update led to the grounding of 6000 Airbus aircraft showed how easy it is to miscalculate robustness even in systems designed to handle the radiation levels encountered just 30km above sea level. Though elevated, they are nowhere near the levels encountered closer to the particle-traps of the van Allen belts hundreds of kilometres higher up.
Single event upsets
Because weight is so crucial to keeping launch costs down, the traditional approach to electronics design for satellites revolves around hardening individual components against both long-term damage and single-event upsets (SEUs). Collisions with protons, neutrons and heavy ions can release a cascade of charged particles numerous enough to flip the state of registers and volatile-memory cells. Without shifting more of the system over to less vulnerable technologies such as flash or magnetic RAM, the usual answer to handling SEUs is to use error-correcting codes combined with memory scrubbing to clear out altered bits periodically.
For parts of the system that need high reliability, that goes hand in hand with redundant systems, either running in parallel or by running the same software functions repeatedly and then checking the results.
Given the high cost of AI accelerators and the huge amounts of fast memory they need, such redundancy is likely to be a deal-breaker for in-orbit data centres. If you need to triple each GPU to even approach the performance of machines on Earth, free energy is unlikely to save the project. But that is not the plan of companies working on these projects.
Starcloud aims to replicate surface-level conditions inside the satellite's housing as far as possible. The only way to achieve that is to use much more shielding than with conventional designs. This is far from a cheap option. But scale will help it: the cost of shielding increases with the surface area of the enclosure. With sufficient cooling, computing capacity should scale instead with volume.
The cooling and solar arrays will be kilometres across, feeding power to and heat away from the modules plugged into a spine at the centre of the satellite. Such a large array should support densely packed modules using liquid cooling. And liquid cooling has a particular benefit in space.
Some proposals for missions to Mars have walls of water wrapped around the crew quarters, providing the dual function of blocking cosmic rays and acting as a reservoir for the astronauts. Fluid pumped over the top and bottom of sensitive components like GPUs should protect against some cosmic rays.
The main part of the protection lies in solid shielding. Traditionally, the answer has been sufficiently thick layers of aluminium, sometimes augmented with tantalum or tungsten. The reason water works as a shield lies in the hydrogen it contains. This makes organic polymers perhaps unexpected weapons against high-energy subatomic particles. Plasteel, a matrix of metal nanoparticles embedded in a polymer, is Cosmic Shielding Corporation's answer and helps protect the GPU in the Deimos satellite.
Shielding options
What shielding options will work best is not easy to determine. Research at Purdue University has shown that seemingly good, and sometimes expensive, candidates for protection can offer minimal advantage over regular aluminium. Until there is a breakthrough in materials simulation, the secret to making this kind of protection is extensive testing. Short of launching into orbit and trying to perform experiments remotely, as Cosmic Shielding did in 2022 by piggybacking on a launch by Welsh satellite maker Space Forge, such testing is easier said than done.
There are sources of protons, neutrons and heavy ions on Earth, but not all in one particle accelerator. And experiments on device-level robustness are easily confounded by interactions with nearby components and the carrier board itself, as found in work by Ivan Rodriguez-Ferrandez and colleagues at the University Politècnica de Calalunya (UPC).
The results of such experiments can produce surprising answers. In common with rad-hard devices that rely on the ultrathin conductive layers of fully depleted silicon-on-insulator (FD-SOI) processes, newer processors and GPUs can handle higher levels of radiation without suffering from severe upsets. That is as long as it is the right kind of radiation, a factor that will steer the choice of shielding.
With proton-driven SEUs, the UPC researchers found Nvidia’s 8nm automotive-grade Jetson Orin had a lower SEU cross-section, indicating better reliability, than the older Xavier, which was made on a 12nm process. Many of the SEUs detected by the onchip reliability-management hardware were correctable memory errors or led to parity mismatches on bus transactions. Some of those parity issues led to full resets. But silent data corruption turned out to be rare. That may limit the need for modular redundancy, though the throughput of applications might suffer from resets if they prove too common.
There is one obstacle to handling errors. Today’s GPUs do not make bit-flip errors as easy to determine as with Arm’s support for these in the host processors. The accelerators can generate error codes, but they are not publicly documented. At least not yet. Today’s satellites monitor the processors with custom circuitry programmed into radiation-hardened programmable-logic devices such as Microchip Technology’s PolarFire.
Denser CMOS devices can also prove to be less susceptible to long-term ionising radiation. Though it analysed short-duration LEO missions that would be in orbit for less than a year, a NASA report from late 2020 found more advanced CMOS parts have an advantage in terms of total ionising dose (TID). Because insulator oxides provide the main trap sites that affect transistor threshold voltage, the thinner materials in advanced simply have a lower probability of being hit by high-energy particles.
UPC’s experiments pointed to TID reaching as high as 50krad before significant degradation set in. Unshielded, the TID would hit that level in a matter of weeks in low-Earth orbit, according to experiments conducted using satellites such as the Arcsecond Pico Star Tracker. But even 2mm of basic aluminium shielding cut TID in that experiment by three orders of magnitude.
The economics of operating high-density computers in space may not win out without major improvements in launch costs. But by making larger arrays, space companies may be able to take much of what works on Earth and expect it to work in orbit for long enough for the hardware to go obsolete before it is damaged beyond repair.
Da:
https://www.newelectronics.co.uk/content/features/roast-in-space?utm_source=content_recommendation&utm_medium=blueconic
Commenti
Posta un commento