Lo strumento di intelligenza artificiale Eve prevede con precisione la rilevanza della malattia delle varianti genetiche umane / AI Tool Eve Accurately Predicts Disease Relevance of Human Genetic Variants

Segnalato dal Dott. Giuseppe Cotellessa / Reported by Dr. Giuseppe Cotellessa

Comprendere come la ricchezza della variazione genetica nel genoma umano abbia un impatto sulla malattia potrebbe potenzialmente trasformare l'assistenza sanitaria, ma mentre conosciamo le conseguenze di forse una manciata di mutazioni genetiche specifiche, rimane la nostra capacità di interpretare il significato di milioni di variazioni genetiche identificate attraverso il sequenziamento del genoma una sfida.

I ricercatori della Harvard Medical School e dell'Università di Oxford hanno ora sviluppato uno strumento di intelligenza artificiale (AI) chiamato EVE (modello evolutivo dell'effetto variante), che utilizza un tipo sofisticato di apprendimento automatico per rilevare modelli di variazione genetica in centinaia di migliaia di specie non umane e quindi usali per fare previsioni sul significato delle variazioni nei geni umani.

In uno studio pubblicato su Nature, il gruppo ha utilizzato EVE per valutare 36 milioni di sequenze proteiche e 3.219 geni associati alla malattia in più specie. I loro risultati hanno suggerito che 256.000 varianti genetiche umane precedentemente identificate e attualmente di significato sconosciuto dovrebbero, infatti, essere riclassificate come benigne o causanti malattie. Mentre i ricercatori sottolineano che EVE non è un test diagnostico, affermano che potrebbe aumentare gli attuali strumenti clinici utilizzati da genetisti ed altri medici per fare diagnosi, prevedere la progressione della malattia e persino scegliere il trattamento in base alla presenza di determinate mutazioni genetiche che causano la malattia. "Sempre più persone hanno accesso al sequenziamento dei loro genomi, ma dare un senso ai dati non è sempre semplice", ha affermato l'autore senior dello studio Debora Marks, PhD, professore associato di biologia dei sistemi presso l'Istituto Blavatnik presso HMS.

Marks ha co-diretto la ricerca riportata, insieme al collega Yarin Gal, PhD, all'Università di Oxford, ai co-primi autori Jonathan Frazer, PhD, e Mafalda Dias, PhD, alla Harvard Medical School, e Pascal Notin a Oxford. Nel rapporto degli scienziati, intitolato " Previsione delle varianti della malattia con modelli generativi profondi di dati evolutivi ", hanno concluso, "Il nostro lavoro suggerisce che i modelli di informazioni evolutive possono fornire preziose prove indipendenti per l'interpretazione delle varianti che saranno ampiamente utili nella ricerca e nella clinica. impostazioni."

Non esistono due esseri umani uguali, e questa è una singolarità biologica codificata nella disposizione unica del DNA di ogni persona. Ma mentre questa variazione genetica è una caratteristica fondamentale della biologia che guida la diversità e rappresenta il motore dell'evoluzione, ha anche un lato oscuro.

Le alterazioni delle sequenze del DNA e delle proteine risultanti che costruiscono le nostre cellule possono talvolta portare a profonde interruzioni della funzione fisiologica e causare malattie. Ma capire quali varianti hanno un impatto sulla malattia è una sfida enorme e mettere in relazione specifici cambiamenti nel genoma umano con la malattia continua a tormentare il campo della genetica clinica perché il numero di varianti nella popolazione umana fa impallidire il numero che gli scienziati possono indagare.

Anche se è stata sequenziata solo una piccola frazione della popolazione umana, i ricercatori stanno già vedendo milioni di varianti il cui significato non è chiaro. Di queste varianti, solo il 2% è classificato come benigno, neutro o patogeno. Il restante 98% delle varianti genetiche identificate è attualmente ritenuto di "significato sconosciuto". Gli autori hanno commentato: "La crescita esponenziale nel sequenziamento del genoma umano ha sottolineato la sostanziale variazione genetica nella popolazione umana... Quantificare la patogenicità delle varianti proteiche nei geni umani correlati alla malattia avrebbe un effetto marcato sulle decisioni cliniche,

La posta in gioco per un'interpretazione accurata del significato della variazione genetica è enorme. Leggere una variazione benigna come causa di malattia potrebbe portare a diagnosi errate, alimentando una cascata di ulteriori test e interventi medici potenzialmente non necessari. Al contrario, interpretare erroneamente una variante del DNA che promuove la malattia come benigna potrebbe fornire una falsa rassicurazione quando l'osservazione, ulteriori test o misure preventive possono essere obbligatorie.

Nel genoma umano, le sole regioni codificanti proteine contengono grandi variazioni tra le persone e, ad oggi, sono state osservate 6,5 milioni di varianti missenso, ha osservato il gruppo. Queste cosiddette mutazioni missenso possono non avere alcun effetto sulla funzione di una proteina o possono rendere la proteina disfunzionale, causando la malattia. In effetti, i ricercatori stimano che potrebbe esserci una variante per ogni posizione proteica, ad eccezione di quelle letali, nei genomi degli 8 miliardi di persone che abitano il pianeta.

"Ci sono molti modi in cui una persona non ha solo un genoma", ha detto Marks. "Potresti avere una variante diversa su una copia di un gene e, con l'avanzare dell'età, si verificano tutti i tipi di variazioni somatiche, non solo legate allo sviluppo del cancro ma alla neurodegenerazione, entrambi processi legati all'età guidati dalla mutazione .”

Esistono numerosi geni associati alla malattia per i quali i ricercatori hanno identificato mutazioni che comportano un alto rischio di malattia clinica. Questi includono BRCA1 e BRCA2 per i tumori al seno e alle ovaie e il gene soppressore del tumore p53 per una serie di tumori. Ma anche quei geni hanno mostrato altre mutazioni non studiate, il cui significato rimane poco chiaro. Tutto ciò crea un urgente bisogno di chiarire il significato delle variazioni genetiche negli esseri umani, un processo in cui il calcolo svolgerà un ruolo sempre più importante nel fornire risposte, ha affermato Marks.

Una caratteristica distintiva delle reti neurali è la loro capacità di rivalutare e aggiornare continuamente la probabilità di un'ipotesi man mano che nuovi dati diventano disponibili. Ciò significa che le reti neurali possono rivalutare le prove utilizzando nuove conoscenze e quindi possono rilevare schemi e significati persi dai metodi tradizionali.

Nell'attuale studio, i ricercatori hanno utilizzato un sofisticato tipo di analisi noto come apprendimento automatico non supervisionato, una forma di intelligenza artificiale che non si basa su parametri e regole predefiniti ma implica invece l'apprendimento adattivo. Ciò significa che quando vengono presentati nuovi dati, un algoritmo di apprendimento automatico diventerà migliore nel riconoscere i modelli nel tempo. Al contrario, nell'apprendimento automatico supervisionato, l'algoritmo impara a rilevare modelli da dati preetichettati: il suo addestramento è stato supervisionato.

In un classico esempio fornito dagli informatici, l'algoritmo viene presentato con immagini di cani e gatti e viene detto quali sono prima di essere sfidato a riconoscere immagini senza etichetta di cani e gatti. Nell'apprendimento automatico non supervisionato, all'algoritmo viene fornita una serie di immagini di cani e gatti e non viene detto quali sono quali. Deve discernere i modelli da solo. "Poiché l'algoritmo non ha bisogno di sapere in anticipo quali immagini sono gatti, quali immagini sono cani, ha solo bisogno di un mucchio di immagini di cani e gatti, non c'è modo di usare informazioni che non dovrebbe sapere", ha aggiunto Gal notato.

Entrambi i tipi di machine learning offrono vantaggi per attività specifiche. Un vantaggio dei modelli non supervisionati è che non c'è possibilità di influenzare il loro apprendimento fornendo loro dati pre-etichettati. Inoltre, possono adattarsi man mano che i dati cambiano per eseguire analisi più complesse. La maggior parte degli attuali metodi computazionali utilizzati per valutare il significato delle varianti genetiche impiegano una formazione supervisionata basata su etichette cliniche, che possono influenzare questi strumenti e causare un'accuratezza esagerata della previsione nel mondo reale, hanno affermato i ricercatori. “In linea di principio, i metodi computazionali potrebbero supportare l'interpretazione su larga scala delle varianti genetiche. Tuttavia, i metodi all'avanguardia si sono basati sull'addestramento di modelli di apprendimento automatico su etichette di malattie note. Poiché queste etichette sono sparse, distorte e di qualità variabile, i modelli risultanti sono stati considerati insufficientemente affidabili".

È proprio la capacità dell'apprendimento automatico non supervisionato di rilevare nuovi modelli da dati mai incontrati prima che rende questo approccio particolarmente adatto per l'analisi di sequenze genetiche da non umani. Gli scienziati hanno utilizzato la genetica comparativa per molti anni per rilevare regioni di somiglianza tra sequenze di DNA o proteine per ricavarne un significato. Il gruppo di Harvard-Oxford ha utilizzato una rete neurale per farlo su una scala molto più ampia.

Per il loro studio riportato, i ricercatori hanno rivisitato il concetto, che studiando la variazione genetica tra più specie potrebbero raccogliere indizi sul significato della variazione negli esseri umani. "... rivisitiamo il valore clinico delle informazioni evolutive alla luce dei recenti sviluppi nella modellazione generativa non supervisionata", hanno osservato. L'evoluzione tende a preservare le caratteristiche che sono critiche, o almeno importanti, per il funzionamento e la sopravvivenza tra le specie. Pertanto, le disposizioni di amminoacidi che ricorrono tra le specie sono marcatori di importanza biologica, indicando che sono importanti per la funzione di un organismo e la sua idoneità evolutiva. Quindi, alterazioni a sequenze così altamente conservate possono significare problemi e collegarsi alla patogenicità.

Il metodo computazionale ha analizzato i dati di 140.000 specie, inclusi organismi in via di estinzione ed estinti, e ha cercato efficacemente modelli evolutivamente conservati per trarre conclusioni. "Il nostro metodo, EVE, apprende la propensione delle varianti missenso umane ad essere patogene dalla distribuzione della variazione di sequenza tra le specie", ha scritto il team. "Queste specie sono molto lontane dal punto di vista evolutivo e ci sono molte differenze genetiche, ma prese insieme ci danno informazioni", ha detto Marks. "Questo è il motivo per cui il modello è così potente sui modelli che sono rilevanti per gli esseri umani e la variazione umana".

Dopo l'addestramento su 250 milioni di sequenze proteiche, EVE ha stimato la probabilità che ogni singola variante di amminoacidi sia benigna o patogena. Per determinare se EVE stesse facendo previsioni accurate, i ricercatori hanno confrontato i suoi punteggi con le mutazioni umane stabilite per le quali il significato è già noto. I risultati dello strumento erano notevolmente coerenti con i dati clinici, ha scoperto il gruppo.

Successivamente, i ricercatori hanno applicato EVE a una serie di 3.219 geni umani associati alla malattia. EVE ha fatto la scelta giusta sul fatto che la mutazione fosse patogena o benigna in tutti i geni, inclusi 60 geni "clinicamente attuabili", hanno detto i ricercatori. Quando i ricercatori hanno confrontato le prestazioni di EVE con quelle di altri strumenti supervisionati e non supervisionati, hanno mostrato una precisione di previsione notevolmente maggiore. In effetti, l'analisi ha mostrato che EVE ha superato altri modelli di previsione computazionale nel prevedere l'effetto clinico e ha anche ottenuto un punteggio pari o superiore agli attuali esperimenti high-throughput standard di riferimento che testano l'effetto di una mutazione sulla funzione biologica. "EVE supera tutti i metodi supervisionati e non supervisionati nel prevedere le etichette cliniche note", ha affermato il team.

Ma come se la caverebbero le previsioni di EVE rispetto ai risultati ottenuti da esperimenti clinici reali, il gold standard per valutare come una mutazione genetica influenza la funzione fisiologica? Per rispondere a questa domanda, il gruppo ha confrontato i punteggi di EVE con i risultati di esperimenti clinici che coinvolgono mutazioni ben studiate in cinque geni, tra cui geni correlati a varie forme di cancro, diverse sindromi tumorali e disturbi del ritmo cardiaco. Le previsioni di EVE si sono sovrapposte alle attuali etichette dei dati sperimentali. “Il nostro modello EVE … non solo supera gli approcci computazionali che si basano su dati etichettati, ma si comporta anche alla pari, se non meglio, delle previsioni di esperimenti ad alto rendimento,

"I nostri risultati si sono rivelati molto migliori di quanto ci aspettassimo", ha detto Marks. "Sembra che semplicemente addestrando un modello per adattare la distribuzione delle sequenze attraverso l'evoluzione estraiamo informazioni che ci consentono di fare previsioni inaspettatamente precise sul rischio di malattia derivante da una determinata variante genetica".

Un notevole vantaggio che EVE ha rispetto ai metodi attuali è che assegna un punteggio continuo piuttosto che un punteggio binario. Questo perché anche quando le varianti genetiche sono etichettate come benigne o patogene, il modo in cui una mutazione potrebbe manifestarsi fisiologicamente è più sfumato.

"C'è un intero continuum di patogenicità", ha detto Marks. “Il punteggio continuo è molto importante per prevedere quale sia il livello di patogenicità. La mutazione significa che avrò dolore al mignolo o morirò domani?"

Un altro aspetto importante dello strumento è che assegna un punteggio di confidenza alla previsione gene per gene. Questo può aiutare i medici a contestualizzare il grado di certezza per qualsiasi previsione. In altre parole, per ogni variante genetica, EVE dice all'esperto quanto può fidarsi del suo richiamo. Questa è una questione di affidabilità, di fiducia nel modello, hanno detto i ricercatori.

"Ciò che speriamo che questo approccio faccia è generare dati potenti che possano consentire ai medici in prima linea di prendere le giuste decisioni diagnostiche, prognostiche e terapeutiche", ha affermato Gal. “Non stiamo fornendo ai medici solo un numero, ma anche il grado di incertezza che ne deriva. Questo è qualcosa che l'esperto può prendere e utilizzare nel processo decisionale. Lo strumento può dire: "Penso che la variante appartenga a quella pila, ma non ho mai visto varianti del genere prima, quindi prendilo con le pinze". Oppure lo strumento può anche dire: "Penso che quell'altra variante appartenga a questa pila, e ho visto varianti molto simili a quella in passato, e le ho viste appartenenti a questa pila e quindi le assegnerò a questo mucchio con grande fiducia.

Questo tipo di modellizzazione è ancora agli inizi ed è chiaro che l'evoluzione e la variazione genetica hanno ancora molto da insegnarci sulla malattia, hanno detto i ricercatori, aggiungendo che intendono estendere il lavoro ad altre parti del genoma oltre le regioni che codificano le proteine. Tuttavia, hanno concluso, "Una prospettiva interessante è che il nostro metodo possa essere utile per guidare futuri sforzi sperimentali, agendo essenzialmente come mezzo per identificare quali varianti e quali geni sarebbero più istruttivi da sondare".

Un compito urgente per l'immediato futuro è fare uso clinico della variazione genetica per la quale abbiamo una certa comprensione. Per fare ciò, i ricercatori hanno già collaborato con una società di sequenziamento del genoma e stanno collaborando con vari gruppi tramite la Chan Zuckerberg Initiative.

Il gruppo sta anche partecipando all'Atlas of Variant Effects Alliance, uno sforzo di ricerca globale la cui missione è mappare gli effetti della variazione nel genoma e creare un atlante completo di tutte le possibili varianti geniche umane e dei loro effetti sulla funzione e la fisiologia delle proteine. L'obiettivo finale dello sforzo è migliorare la diagnosi, la prognosi e il trattamento delle malattie umane.

ENGLISH

Understanding how the wealth of genetic variation in the human genome impacts on disease could potentially transform healthcare, but while we know the consequences of perhaps a handful of specific genetic mutations, our ability to interpret the meaning of millions of genetic variations identified through genome sequencing remains a challenge.

Researchers at Harvard Medical School and Oxford University have now developed an artificial intelligence (AI) tool called EVE (evolutionary model of variant effect), which uses a sophisticated type of machine learning to detect patterns of genetic variation across hundreds of thousands of nonhuman species and then use them to make predictions about the meaning of variations in human genes.

In a study published in Nature, the team used EVE to assess 36 million protein sequences and 3,219 disease-associated genes across multiple species. Their results suggested that 256,000 previously identified human gene variants currently of unknown significance should, in fact, be reclassified as either benign or disease causing. While the researchers emphasize that EVE is not a diagnostic test, they say it could augment current clinical tools used by geneticists and other physicians to make diagnoses, predict disease progression, and even choose treatment based on the presence of certain disease-causing genetic mutations. “Increasingly, people have access to sequencing their genomes, but making sense of the data is not always straightforward,” said study senior author Debora Marks, PhD, associate professor of systems biology in the Blavatnik Institute at HMS. “There is very little information about what it even means for likelihood of disease or disease progression … We believe our approach can be used as an added tool in current clinical assessments and offers a powerful new way to reduce uncertainty and clarify decision-making, particularly in the clinical setting.

Marks co-led the reported research, alongside colleague Yarin Gal, PhD, at Oxford University, co-first authors Jonathan Frazer, PhD, and Mafalda Dias, PhD, at Harvard Medical School, and Pascal Notin at Oxford. In the scientists’ report, titled, “Disease variant prediction with deep generative models of evolutionary data,” they concluded, “Our work suggests that models of evolutionary information can provide valuable independent evidence for variant interpretation that will be widely useful in research and clinical settings.”

No two human beings are the same, and this is a biologic singularity encoded in the unique arrangement of each person’s DNA. But while this genetic variation is a cardinal feature of biology that drives diversity, and represents the engine of evolution, it also has a dark side.

Alterations in DNA sequences and the resulting proteins that build our cells can sometimes lead to profound disruptions in physiologic function and cause disease. But understanding which variants impact on disease is a huge challenge, and relating specific changes in the human genome to disease continues to bedevil the field of clinical genetics because the number of variants in the human population dwarfs the number that scientists can investigate.

Even though only a tiny fraction of the human population has been sequenced, researchers are already seeing millions of variants whose significance and meaning are unclear. Of those variants, only 2% are classified as benign, neutral, or pathogenic. The remaining 98% of the identified gene variants are currently deemed of “unknown significance.” The authors commented, “The exponential growth in human genome sequencing has underlined the substantial genetic variation in the human population … Quantifying the pathogenicity of protein variants in human disease-related genes would have a marked effect on clinical decisions, yet the overwhelming majority (over 98%) of these variants still have unknown consequences … relating specific changes in the genome to disease phenotypes remains an open challenge as the number of variants in the human population exceeds the number that we are able to investigate.”

The stakes of accurately interpreting the meaning of genetic variation are enormous. Reading a benign variation as disease-causing could lead to erroneous diagnosis, fueling a cascade of further testing and potentially unnecessary medical interventions. Conversely, misinterpreting a disease-promoting DNA variant as benign could provide false reassurance when observation, further testing, or preventive measures may be mandated.

In the human genome, protein-coding regions alone contain large variation between people, and to date, 6.5 million missense variants have been observed, the team noted. These so-called missense mutations may have no effect on the function of a protein, or they may render the protein dysfunctional, causing disease. In fact, researchers estimate there may be a variant for every protein position—save for lethal ones—in the genomes of the 8 billion people inhabiting the planet.

“There’s many ways in which one person doesn’t just have one genome,” Marks said. “You may have a different variant on one copy of a gene and, as we age, there are all sorts of somatic variations that occur—not only related to cancer development but to neurodegeneration, both of which are age-related processes driven by mutation.”

There are a number of disease-associated genes for which researchers have identified mutations that carry high risk of clinical disease. These include BRCA1 and BRCA2 for breast and ovarian cancers, and the tumor-suppressor gene p53 for a range of cancers. But even those genes have shown other unstudied mutations, the significance of which remains unclear. All of this creates an urgent need to clarify the significance of genetic variations in humans—a process in which computation is going to play an increasingly important role in providing answers, Marks said.

A defining feature of neural networks is their capacity to continually reassess and update the probability of a hypothesis as new data become available. This means that neural networks can reevaluate evidence using new knowledge and therefore can detect patterns and meanings missed by traditional methods.

In the current study, the researchers used a sophisticated type of analysis known as unsupervised machine learning, a form of artificial intelligence that is not based on predefined parameters and rules but instead involves adaptive learning. What this means is that when presented with new data, a machine learning algorithm will become better at recognizing patterns over time. By contrast, in supervised machine learning, the algorithm learns to detect patterns from prelabeled data—its training has been supervised.

In a classic example given by informaticians, the algorithm is presented with cat and dog images and told which ones are which before it gets challenged to recognize unlabeled images of cats and dogs. In unsupervised machine learning, the algorithm is given a set of cat and dog images and not told which ones are which. It must discern the patterns on its own. “Because the algorithm doesn’t need to know in advance which images are cats, which images are dogs—it just needs a bunch of images of cats and dogs—there’s no way of using information that it shouldn’t know,” Gal further noted.

Both types of machine learning offer advantages for specific tasks. One advantage of unsupervised models is that there is no chance of biasing their learning by feeding them prelabeled data. Also, they can adapt as the data change to perform more complex analyses. Most current computational methods used to assess the significance of gene variants employ supervised training based on clinical labels, which may bias these tools and cause inflated accuracy of prediction in the real world, the researchers said. “In principle, computational methods could support the large-scale interpretation of genetic variants. However, state-of-the-art methods have relied on training machine learning models on known disease labels. As these labels are sparse, biased and of variable quality, the resulting models have been considered insufficiently reliable.”

It is precisely the ability of unsupervised machine learning to detect new patterns from never-before encountered data that renders this approach especially suitable for analyzing genetic sequences from non-humans. Scientists have used comparative genetics for many years to detect regions of similarity across DNA or protein sequences to draw meaning. The Harvard-Oxford team used a neural network to do so on a much greater scale.

For their reported study, the researchers revisited the concept, that by studying genetic variation across multiple species they might glean clues about the significance of variation in humans. “… we revisit the clinical value of evolutionary information in light of recent developments in unsupervised generative modeling,” they noted. Evolution tends to preserve features that are critical, or at least important, to function and survival across species. Thus, amino acid arrangements that recur across species are markers of biologic importance, indicating that they are important to an organism’s function and its evolutionary fitness. So, alterations to such highly conserved sequences may spell trouble, and link to pathogenicity.

The computational method analyzed data from 140,000 species, including endangered and extinct organisms, and effectively looked for evolutionarily conserved patterns to draw conclusions. “Our method—EVE—learns the propensity of human missense variants to be pathogenic from the distribution of sequence variation across species,” the team wrote. “These species are a long way away evolutionarily speaking, and there are many genetic differences, but taken together, they give us information,” Marks said. “This is why the model is so powerful about patterns that are relevant for humans and human variation.”

After training on 250 million protein sequences, EVE estimated the likelihood of each single amino acid variant being either benign or pathogenic. To determine whether EVE was making accurate predictions, the researchers compared its scores with established human mutations for which the significance is already known. The tool’s results were remarkably consistent with the clinical data, the team found.

Next, the researchers applied EVE to a set of 3,219 human genes associated with disease. EVE made the right call on whether the mutation was pathogenic or benign across all genes, including 60 “clinically actionable” genes, the researchers said. When researchers compared EVE’s performance with that of other supervised and unsupervised tools, it showed notably greater accuracy of prediction. Indeed, the analysis showed that EVE outperformed other computational prediction models in predicting clinical effect and also scored as high as or better than current gold-standard high-throughput experiments that test the effect of a mutation on biologic function. “EVE outperforms all supervised and unsupervised methods at predicting known clinical labels,” the team stated.

But how would EVE’s predictions fare compared with findings made from actual clinical experiments, the gold standard of assessing how a genetic mutation affects physiologic function? To answer this question, the team compared EVE’s scores against results from clinical experiments involving well-studied mutations in five genes, among them genes related to various forms of cancer, several cancer syndromes, and heart rhythm disorders. EVE’s predictions overlapped with current labels from experimental data. “Our model EVE … not only outperforms computational approaches that rely on labelled data but also performs on par with, if not better than, predictions from high-throughput experiments, which are increasingly used as evidence for variant classification … The primary advantage of our approach over experimental approaches is significant gain in scope at a negligible fraction of the cost.”

“Our results turned out to be far better than we expected,” Marks said. “It seems that by simply training a model to fit the distribution of sequences across evolution we extract information which enables us to make unexpectedly precise predictions about disease risk arising from a given genetic variant.”

A notable advantage that EVE has over current methods is that it assigns a continuous score rather than a binary score. This is because even when gene variants are labeled as benign or pathogenic, how a mutation might manifest physiologically is more nuanced.

“There’s a whole continuum of pathogenicity,” Marks said. “The continuous score is very important for predicting what the level of pathogenicity is. Does the mutation mean I am going to get pain in my little toe, or am I going to die tomorrow?”

Another important aspect of the tool is that it assigns a confidence-of-prediction score on a gene-by-gene basis. This can help clinicians contextualize the degree of certainty for any prediction. In other words, for each genetic variant, EVE tells the expert how much they can trust its call. This is a matter of trustworthiness, of confidence in the model, the researchers said.

“What we hope this approach will do is generate powerful data that can empower the clinicians on the frontlines to make the right diagnostic, prognostic, and treatment decisions,” Gal said. “We’re not providing clinicians merely with a number but also giving them the degree of uncertainty that comes with it. This is something that the expert can take and use in the decision-making process. The tool can say, ‘I think that variant belongs to that pile, but I’ve never seen any variants like that before so take that with a grain of salt.’ Or the tool can also say, ‘I think that that other variant belongs to this pile, and I’ve seen very similar variants to that in the past, and I saw them belonging to this pile and therefore I’m going to assign it to this pile with high confidence.’ Building trust between the tool and the expert is an important aspect of this work.”

This type of modeling is still in its infancy, and it’s clear that evolution and genetic variation still have much to teach us about disease, the researchers said, adding that they plan to extend the work to other parts of the genome beyond protein-coding regions. Nevertheless, they concluded, “An appealing prospect is that our method may be useful in guiding future experimental efforts, essentially acting as a means of identifying which variants and which genes would be most informative to probe.”

One urgent task for the immediate future is to make clinical use of the genetic variation for which we do have some understanding. To do so, the researchers have already teamed up with a genome-sequencing company and are collaborating with various groups via the Chan Zuckerberg Initiative.

The team is also participating in the Atlas of Variant Effects Alliance, a global research effort whose mission is to map the effects of variation across the genome and create a comprehensive atlas of all possible human gene variants and their effects on protein function and physiology. The ultimate goal of the effort is to improve the diagnosis, prognosis, and treatment of human disease.

Da:

https://www.genengnews.com/news/ai-tool-eve-accurately-predicts-disease-relevance-of-human-genetic-variants/?MailingID=%DEPLOYMENTID%&utm_medium=newsletter&utm_source=GEN+Daily+News+Highlights&utm_content=01&utm_campaign=GEN+Daily+News+Highlights_20211028&oly_enc_id=2237J3762301I6G

Cerca nel blog

GENIO italiano Giuseppe Cotellessa

Lo strumento di intelligenza artificiale Eve prevede con precisione la rilevanza della malattia delle varianti genetiche umane / AI Tool Eve Accurately Predicts Disease Relevance of Human Genetic Variants

Commenti

Posta un commento

Post popolari in questo blog

Paracetamolo, ibuprofene o novalgina: quali le differenze? / acetaminophen, ibuprofen, metamizole : what are the differences?

Tata Steel nomina ABB per la fornitura della tecnologia per la trasformazione dell'acciaio verde a Port Talbot / Tata Steel appoints ABB to deliver technology for Port Talbot green steel transformation

Elettroforesi Sieroproteica o Protidogramma: proteine presenti nel sangue e valori normali / Serum Protein Electrophoresis or Protidogram: Proteins present in the blood and normal values