L'evoluzione dell'intelligenza artificiale: l'era dei piccoli dati, degli LLM e dei calcoli che tutelano la privacy / Evolving AI: the age of small data, LLMs and privacy-preserving computations

L'evoluzione dell'intelligenza artificiale: l'era dei piccoli dati, degli LLM e dei calcoli che tutelano la privacyEvolving AI: the age of small data, LLMs and privacy-preserving computations


Segnalato dal Dott. Giuseppe Cotellessa / Reported by Dr. Giuseppe Cotellessa



Jan Baumbach è direttore del Computational Systems Biology Institute (CoSy.Bio) presso l' Università di Amburgo (Germania). È anche professore presso l'Università di Amburgo, professore part-time presso l' Università della Danimarca Meridionale (Odense, Danimarca) e ricercatore principale presso il Sincrotrone Tedesco DESY e il Leibniz Science Campus InterACt (entrambi ad Amburgo, Germania).

In questa intervista dalla conferenza e mostra europea della Society for Laboratory Automation and Screening (SLAS) (20-22 maggio 2025; Amburgo, Germania), Jan spiega perché viviamo nell'era dei piccoli dati, come i modelli linguistici di grandi dimensioni (LLM) potrebbero trasformare l'analisi dei dati per i biologi e l'importanza di calcoli che salvaguardino la privacy.

Potresti raccontarci del lavoro che svolgi presso CoSy.Bio?

Siamo bioinformatici che risolvono problemi di scienze della vita, principalmente problemi biomedici, utilizzando l'informatica. La quantità di dati raccolti oggigiorno è enorme. Invece di misurare l'attività di un singolo gene, si misura l'attività di tutti i geni, e non solo in un campione, ma in tutte le singole cellule di un campione. Potrebbero essere 15.000 geni in oltre 20.000 cellule, in un solo campione. Alla fine, si ottiene un'enorme tabella Excel e, per imparare qualcosa da quei dati, è necessario un supporto computazionale, spesso sotto forma di intelligenza artificiale o metodi di apprendimento statistico.

Potresti parlarci degli strumenti più efficaci sviluppati dal centro?

Lo strumento più efficace che abbiamo sviluppato è l'analisi di arricchimento della rete. Supponiamo che in una coorte di pazienti oncologici alcuni pazienti rispondano ad un determinato farmaco e altri no, e si voglia capire perché. Si cercano meccanismi e complessi proteici che mediano questo processo.

È possibile misurare l'attività dei geni all'interno della propria coorte. Possiamo quindi mappare questi dati di espressione in reti biologiche arricchendoli con informazioni di rete archiviate in altri database. In questo modo, possiamo estrarre i geni che determinano una determinata reazione o malattia. Possiamo isolarli dal rumore di fondo non trattandoli come indipendenti, come farebbe la statistica tradizionale, ma riconoscendo che operano in un'orchestra, quindi dipendono l'uno dall'altro.

Utilizziamo queste informazioni di rete archiviate in altri database per arricchire i dati omici, in questo esempio i dati sull'espressione genica, ed in questo modo è possibile identificare un piccolo meccanismo costituito da 10 o 15 geni o proteine ​​che sono effettivamente responsabili di qualcosa, in questo caso la resistenza ad un determinato farmaco.

Qual è lo strumento più interessante che hai sviluppato/stai sviluppando?

Viviamo nell'era dell'intelligenza artificiale. Tutti la usano, e non solo perché è una moda passeggera: è uno strumento potentissimo che può essere utilizzato per molti scopi diversi. Per addestrare modelli di intelligenza artificiale, servono molti dati, quindi eravamo nell'era dei big data. Questo significava che non si sapeva veramente cosa si stesse cercando; si raccoglievano semplicemente tutti i dati possibili e li si immetteva in un modello nella speranza che fornissero informazioni. Oggi possiamo addestrare modelli di base o di trasformazione con ampi set di dati che includono informazioni su 300 milioni di cellule e dati di espressione per ciascuna cellula in vari tessuti, condizioni e specie. Quando si fornisce al modello qualcosa di nuovo, può dire quali tipi di cellule sono presenti, da quale tessuto probabilmente proviene, quali geni reagiscono e così via. Questo perché il modello lo ha già visto prima. Questo si chiama zero-shot.

Ora stiamo finalmente arrivando all'era dei piccoli dati. Possiamo fare qualcosa chiamato fine-tuning o "poche riprese". Quando si hanno nuovi dati, qualcosa che il modello non ha mai visto prima ma è simile o correlato, allora bastano pochi set di dati perché il modello può ignorare tutto il rumore e le dipendenze che non contano. Può raccogliere segnali da piccoli set di dati, quindi bastano solo un paio di centinaia di set di dati, forse anche meno. Questo significa che, grazie ai big data, ora disponiamo di modelli di base che possiamo perfezionare con piccoli set di dati. Questo dà speranza a campi come le malattie rare, dove ci sono solo un paio di centinaia di pazienti con una specifica patologia e solo pochi campioni.

L'altro aspetto interessante riguarda i grandi modelli linguistici (LLM). L'anno scorso, la Germania ha laureato circa 2500 bioinformatici. Al contrario, nel Paese ci sono circa 50.000 biologi, 25.000 biochimici e più di 100.000 studenti di medicina. In altre parole, per ogni bioinformatico in grado di analizzare dati, ci sono più di 100 persone che li generano. Questo rappresenta un enorme collo di bottiglia, quindi molte persone nel mio laboratorio dedicano da un quarto a metà del loro tempo a svolgere attività ripetitive e basilari di analisi dei dati.

In futuro, i modelli di intelligenza artificiale saranno in grado di effettuare questo tipo di analisi. Immaginate database o strumenti bioinformatici gestibili dall'intelligenza artificiale, con la documentazione del software scritta in modo che le IA possano applicarla. Potreste avere la vostra IA, dirle cosa volete e la vostra IA comunicherà con altre IA, chiedendo se possono eseguire determinati compiti. Se possono, eseguiranno i compiti, condensano le informazioni ed i risultati e li restituiranno alla vostra IA, che vi spiegherà i risultati dei vostri esperimenti.

Al momento, questo può richiedere giorni o settimane e moltissimi cicli di comunicazione, ma nel prossimo futuro i biologi potrebbero farlo da soli. Semplificherà l'analisi e la renderà più trasparente, riproducibile e accessibile. Grandi innovazioni in questo campo sono i protocolli di contesto del modello (MCP) ed i protocolli agente-agente, che consentono alle IA di comunicare tra loro, trovare il servizio giusto ed eseguirlo per voi.

Alcuni dei vostri strumenti tutelano la privacy. Come funziona?

Soprattutto in Europa, la privacy è fondamentale. Centralizzare tutte le nostre informazioni mediche, in particolare quelle genetiche, è una sfida. Anche se protette da norme o leggi, le informazioni rimarranno centralizzate e potrebbero essere oggetto di abusi.

Con un calcolo che tutela la privacy, i dati rimangono decentralizzati. Io conservo i miei dati e gli ospedali conservano i loro. Ma il problema è: come si potrebbe addestrare un modello di intelligenza artificiale senza che i dati siano centralizzati?

È possibile distribuire i dati ed applicare una tecnologia chiamata apprendimento federato. Siamo stati pionieri dell'apprendimento federato in campo biomedico. Abbiamo dimostrato che gli studi genetici, l'analisi dell'espressione genica e proteica e l'analisi dei dati molecolari funzionano altrettanto bene in modalità federata.

Basta scambiare i parametri del modello dell'IA. Invece di inviare i dati ad un servizio centrale affinché un'IA possa svilupparsi a partire da essi, l'IA viaggia da un ospedale all'altro, sviluppandosi a partire dai dati locali senza che questi escano mai dall'ospedale.

Chiamiamo questo approccio "privacy-preserving" o "privacy-by-design" perché nessuna informazione personale può essere dedotta dai modelli o persino dalla comunicazione. Sta diventando parte integrante della prassi quotidiana aziendale e legislativa.

Ciò rappresenta mai un ostacolo?

Non esiste un pranzo gratis, nemmeno con l'apprendimento federato. Tuttavia, direi che in nove applicazioni su dieci con l'apprendimento federato, possiamo ottenere gli stessi risultati che si otterrebbero con l'apprendimento centralizzato. Soprattutto se lo si abbina a tecnologie aggiuntive per la tutela della privacy, come il calcolo multipartitico sicuro o la crittografia omomorfica, è sicuro e funziona. Anche se a volte può essere un po' più lento o leggermente meno preciso, in genere non è così.

Come pensi che evolverà questo settore?

Stiamo affrontando cambiamenti drastici. Per citare il CEO di NVIDIA, Jensen Huang, "Non perderete il lavoro a causa di un'IA, ma lo perderete a causa di qualcuno che usa l'IA".

Posso copiarlo in larga misura. Come ho detto, molti test ripetitivi e semplici che prima richiedevano l'intervento umano ora lo richiedono solo per il 20% finale del compito, mentre l'80% iniziale può essere automatizzato e semplificato.

La ricerca sta diventando più efficiente, includendo la generazione di ipotesi, i test, i suggerimenti per i protocolli di laboratorio, l'analisi dei dati e così via. Sono ottimista. L'intelligenza artificiale è uno strumento potente, e ci sono esempi in cui può essere usata impropriamente, ma credo che in larga misura sarà una forza positiva.

ENGLISH

Jan Baumbach is the Director of the Computational Systems Biology Institute (CoSy.Bio) at the University of Hamburg (Germany). He’s also a professor at the University of Hamburg, a part-time professor at the University of Southern Denmark (Odense, Denmark) and a principal investigator at the German Synchrotron, DESY, and the Leibniz Science Campus InterACt (both Hamburg, Germany).

In this interview from the Society for Laboratory Automation and Screening (SLAS)’s European conference and exhibition (20–22 May 2025; Hamburg, Germany), Jan discusses why we’re now in the age of small data, how large language models (LLMs) could transform data analysis for biologists and the importance of privacy-preserving computations.

Could you tell us about the work you do at the CoSy.Bio?

We are bioinformaticians who solve life science problems, primarily biomedical problems, using computer science. The amount of data gathered nowadays is enormous. Instead of measuring the activity of one gene, you measure the activity of all the genes, and not just in one sample, but in all individual cells in one sample. That could be 15,000 genes in over 20,000 cells, in just one sample. At the end, you have a huge Excel table, and to learn something from that data, you need computational support, often in the form of AI or statistical learning methods.

Could you tell us about the most impactful tools the center has developed?

The most impactful tool we’ve developed is termed network enrichment analysis. Let’s say in a cancer cohort, some patients respond to a certain medicine and others don’t, and you want to understand why. You’re looking for mechanisms and protein complexes that mediate this process.

You can measure the activity of genes across your cohort. We can then map this expression data to biological networks by enriching it with network information that’s stored in other databases. This way, we can pull out the genes driving a certain reaction or disease. We can pull them out of the noise by not treating them as independent, which is what traditional statistics would do, but acknowledging that they operate in an orchestra, so they depend on each other.

We use this network information stored in other databases to enrich omics data, in this example, gene expression data, and this way, you can identify a small mechanism consisting of 10 or 15 genes or proteins that are actually responsible for something, in this case, resistance to a certain drug.

What is the coolest tool you’ve developed/are developing?

We’re living in the age of AI. Everyone is using AI, and not just because it’s a hype; it’s a very powerful tool that you can use for many different things. To train AI models, you need a lot of data, so we were in the age of big data. This meant that you didn’t really know what you were looking for; you just collected all the data you could and fed it into a model in the hope that it would tell you something. Nowadays, we can train foundation or transformer models with extensive datasets that include information on 300 million cells and expression data for each cell across various tissues, conditions and species. When you give the model something new, it can tell you what cell types are present, what tissue it likely came from, which genes react and so on. This is because the model has seen it before. That’s called zero-shot.

Now, we are finally arriving at the age of small data. We can do something called fine-tuning or few-shot. When you have new data, something the model has not seen before but is similar or related, then you need just a few data sets because the model can ignore all the noise and dependencies that don’t matter. It can pick up signals from small data sets, so you only need a couple of hundred data sets, maybe even less. This means, thanks to big data, we now have foundation models that we can fine-tune with small data sets. This gives hope to fields like rare diseases, where there are only a couple of hundred patients with a specific disease and just a few samples.

The other cool thing has to do with large language models (LLMs). Last year, Germany graduated approximately 2500 bioinformaticians. In contrast, there are around 50,000 biologists, 25,000 biochemists and more than 100,000 medical students in the country. In other words, for every bioinformatician who can analyze data, there are more than 100 individuals generating data. That’s a huge bottleneck, so many people in my lab spend a quarter to half of their time doing repetitive, basic data analysis tasks.

In the future, AI models will be able to do this kind of analysis. Imagine databases or bioinformatics tools that can be operated by AI, with the documentation of software written so that AIs can apply it. You could have your own AI, tell it what you want, and your AI communicates with other AIs, asking if they can perform certain tasks. If they can, they will execute the tasks, condense the information and results, and return them to your AI, which will then explain the findings of your experiments to you.

At the moment, this can take days or weeks and tons of communication rounds, but in the near future, biologists could do it themselves. It will streamline analysis and make it more transparent, reproducible and accessible. Big breakthroughs in this field are model context protocols (MCPs) and agent-to-agent protocols, which allow AIs to communicate with each other and find the right service and execute it for you.

Some of your tools are privacy-preserving. How does this work?

Particularly in Europe, privacy matters a lot. Centralizing all our medical information, especially genetic information, is challenging. Even if you’re protected by policy or legislation, it will be centralized, and it can be abused.

With privacy-preserving computation, you keep the data decentralized. I keep my data, and the hospitals keep their data. But the problem is, how would you train an AI model without the data in a centralized place?

You can keep the data distributed and apply a technology called federated learning. We pioneered federated learning in the biomedical field. We have shown that genetic studies, gene and protein expression analysis and molecular data analysis work just as well in a federated fashion.

You just exchange model parameters of the AI. Instead of sending the data to a central service so that an AI can grow from it, you have the AI traveling from hospital to hospital, growing from the local data without the data ever leaving the hospital.

We call this privacy-preserving or privacy-by-design because no personal information can be deduced from the models or even from the communication. It’s becoming part of everyday business and legislation now.

Is this ever a hindrance?

There’s no such thing as a free lunch, not even with federated learning. However, I would say in nine out of ten applications with federated learning, we can achieve the same results that you would with centralized learning. Particularly if you bundle it with additional privacy-enhancing technologies like secure multiparty computation or homomorphic encryption, it is safe and it works. While it may occasionally be a bit slower or slightly less accurate, this is typically not the case.

How do you see the field evolving?

We are facing drastic shifts. To quote NVIDIA CEO Jensen Huang, “You’re not going to lose your job to an AI, but you’re going to lose your job to someone who uses AI.”

I can copy this to a large degree. As I mentioned, many repetitive and straightforward tests that previously required human attention now only need human attention for the final 20% of the task, while the initial 80% can be automated and streamlined.

Research is becoming more efficient, including hypothesis generation, testing, lab protocol suggestions, data analysis and so on. I’m optimistic. AI is a powerful tool, and there are examples where it can be misused, but I think largely it will be a force for good.

Da:

https://www.biotechniques.com/computational-biology/slaseurope2025_evolving-ai-the-age-of-small-data-llms-and-privacy-preserving-computations/

Commenti

Post popolari in questo blog

Paracetamolo, ibuprofene o novalgina: quali le differenze? / acetaminophen, ibuprofen, metamizole : what are the differences?

Gli inibitori SGLT-2 potrebbero aiutare a prevenire la demenza / SGLT-2 Inhibitors Could Help Prevent Dementia

SGLT-2 consente di raggiungere un tasso di remissione del diabete più elevato / Moderate Calorie Restriction Plus SGLT-2 Achieves Higher Diabetes Remission Rate