Reasons to Consider a UMI-based Approach in Next-Generation Sequencing / Motivi per considerare un approccio basato su UMI nel sequenziamento di nuova generazione

Reasons to Consider a UMI-based Approach in Next-Generation Sequencing Motivi per considerare un approccio basato su UMI nel sequenziamento di nuova generazione

Segnalato dal Dott. Giuseppe Cotellessa / Reported by Dr. Giuseppe Cotellessa



Figure 1 . Top: Pool of sequencing data containing false-positive reads or processing errors (orange lines) and true variants (red lines). Bottom: Sequencing data clustered into read families based on UMIs (represented by purple, blue, and pink tags on the ends of nucleotide fragments) / In alto: pool di dati di sequenziamento contenenti letture false positive o errori di elaborazione (linee arancioni) e varianti vere (linee rosse). In basso: dati di sequenziamento raggruppati in famiglie di lettura basate su UMI (rappresentati da tag viola, blu e rosa alle estremità dei frammenti di nucleotidi)

Highlights

 Next-generation sequencing has revolutionized the life sciences and will likely continue to dominate biological research well into the future

 Unique molecular identifiers (UMIs) function as molecular barcodes that are added to nucleotide fragments prior to library preparation

 UMIs are used in NGS technologies to eliminate false-positive reads that are often introduced during library preparation and increase sensitivity of true variant detection

 RareSeq™ is a novel error-corrected NGS method that uses UMIs to detect ultra-rare allele variants in hematologic malignancies 

Introduction 

Next-generation sequencing (NGS) has revolutionized the life sciences by allowing researchers to study biological systems at an unprecedented level. Complex research questions that require a depth or breadth of genomic information beyond what traditional methods can offer, can now be addressed. With NGS, researchers can sequence whole genomes and target regions (Bewicke-Copley et al., 2019), analyze epigenetic factors (Sarda & Hannenhalli, 2014), and conduct gene expression analysis with RNA sequencing (Kukurba & Montgomery, 2015). Due to the ultra-high throughput, speed, and low costs, NGS technologies will likely continue to dominate biological research well into the future. Library preparation is a critical first step in NGS and usually involves PCR amplification of the targets of interest. Although necessary, PCR amplification is a principal source of bias when generating sequencing data, as certain transcripts may be under or overrepresented in the final sequencing library. When the starting material is limited, contains long fragments, or has a high GC content, processing errors may be propagated (van Dijk et al., 2014). Such processing errors skew transcript abundance measurements, which poses a problem during read count analysis. Furthermore, transcripts of biological impact and interest may be present in very low quantities. Although many genetic loci have been identified to date, a large proportion of genetic variation that predisposes an individual to disease have not yet been identified (Bomba et al., 2017). NGS technologies have rapidly evolved to meet the growing demands of scientists, who need methods that can confidently detect a single mutation in a population of normal genes. However, these methods are extremely specialized, using reagents that target selected disease-specific variants. Unique molecular identifiers (UMIs) pragmatically solve these problems through a modification to conventional NGS. UMIs have emerged as valuable tools to reduce false-positive reads that are often introduced during the library preparation and sequencing steps and increase the sensitivity of variant allele detection.

What are UMIs? 

 A unique molecular identifier (UMI) is a short molecular barcode used to uniquely tag DNA or RNA fragments. UMIs have a random sequence composition that is added prior to library preparation to ensure each fragment with a UMI is unique. After data is collected, bioinformatics software groups nucleotide fragments into “read families” according to UMI. In this way, biologically significant variant alleles present in the original sample can be distinguished from errors introduced during processing, as shown in Figure 2. This enables the software to provide an accurate quantitative readout of transcript abundance by eliminating false-positive reads. 

There are two key reasons researchers employ a UMIbased approach in NGS research. First, UMIs enable deduplication analysis which leads to more accurate read abundance measurements. Second, UMIs increase read sensitivity and lower the limit of detection to identify rare and ultra-rare variants

umis enable deduplicati on analysis for more accurate read abundance measurements

A variety of sequencing applications use a read counting approach to estimate the abundance of a particular nucleotide fragment across biological conditions or different cell types. Yet, PCR amplification can lead to bias that can propagate to quantification measurements. To address this, UMIs enable deduplication analysis for more accurate read quantification results. In deduplication analysis, reads that align to the same position in the reference genome are marked as duplicates generated during PCR amplification and removed. Deduplication analysis is most appropriate for research requiring low depth of sequencing and is less appropriate as depth increases (Kukurba & Montgomery, 2015). Highly expressed transcripts are more likely to generate multiple reads that map to the exact same coordinates in the reference genome, which will be incorrectly marked as the same molecule during deduplication. Sequencing data Read families clustered by UMI umis enable deduplicati on analysis for more accurate read abundance measurements. 

Detecting potentially malignant rare variants is critical since early indication of disease often correlates with patient outcome. Yet, detecting rare mutations with sequencing remains a significant challenge determined in large part by the limit of detection – the ability to resolve nucleotide fragments to distinguish a true variant from a processing error. The limit of detection of standard NGS is only 1:100, so a true variant will be mistaken for a processing error every one in one hundred times. Scientists studying clonal heterogeneity in search for early indicators of disease require methods with far greater sensitivity for confident results. A UMI-based approach greatly improves the limit of detection beyond what standard NGS offers, thereby increasing read sensitivity for the detection of rare variants. In fact, some UMI-based approaches such as RareSeq dramatically improve the limit of detection from 1:100 to 1:10,000, providing the sensitivity required to detect ultra-rare variant alleles (Crowgey et al., 2020)



Figure 2. Left column: The RareSeq workflow begins with extraction of genomic DNA from cells in a sample and subsequent QC. Middle column: The gDNA is then used as the starting material for the library preparation and sequencing steps. Right column: Using bioinformatics software, the sequencing data is clustered into read families based on UMI to quantify read counts and identify true variants. / Colonna di sinistra: il flusso di lavoro di RareSeq inizia con l'estrazione del DNA genomico dalle cellule in un campione ed il successivo controllo di qualità. Colonna centrale: il gDNA viene quindi utilizzato come materiale di partenza per la preparazione della libreria e le fasi di sequenziamento. Colonna di destra: utilizzando il software di bioinformatica, i dati di sequenziamento sono raggruppati in famiglie di lettura basate sull'UMI per quantificare i conteggi di lettura e identificare le vere varianti.


 RareSeq is designed to detect ultra-rare variants that May lead to Malignancy

Clonal heterogeneity has emerged as a critical topic in disease research, since cells harboring driver mutations may predispose individuals to malignancy. Detecting these ultra-rare variants is critical or monitoring minimal residual disease (MRD) in patients with acute myeloid leukemia, where early indication correlates with patient outcome (Creutzig et al., 2014). Researchers at the Washington University Medical School, St. Louis noted that standard NGS lacks the quantitative sensitivity for monitoring MRD due to an inherently high error rate. To address this problem, the researchers developed RareSeq, a targeted error-corrected sequencing approach that employs UMIs to dramatically increase sensitivity by one hundred times greater than standard NGS (Crowgey et al., 2020).

With this technology, Crowgey and colleagues (2020) were able to detect previously undetectable clonal leukemic mutations with a high degree of sensitivity, enabling more accurate MRD tracking. Mutations in the same genes implicated in MRD are thought to also be responsible for at least some cases of clonal hematopoiesis of indeterminant potential (CHIP). Researchers harnessed the power of RareSeq and detected hematopoietic clones in 95% individuals studied, a number far greater than is detectable with standard NGS (Young et al., 2016). Taken together, the data in these studies demonstrates the utility of RareSeq to identify ultrarare mutations that may lead to hematologic malignancy. Canopy Biosciences offers RareSeq errorcorrected sequencing as a service for scientists conducting research aimed to detect ultra-rare AMLassociated mutations.

Summary 

As the need for more accurate and sensitive sequencing methods has increased, scientists have turned to UMI-based approaches for genomic research. In this article, we summarize the key applications of UMIs – namely their ability to provide more accurate read count quantification and enhance the limit of detection to confidently detect rare variants. Although a number of examples exist, we describe one UMI-based targeted sequencing approach called RareSeq, designed to detect ultra-rare variant alleles that predispose individuals to hematologic malignancies. Researchers have already demonstrated the utility of RareSeq to identify ultra-rare mutations that may be implicated in MRD and CHIP (Crowgey et al., 2020; Young et al, 2016). In summary, UMIs have evolved as a key solution in NGS research to address previously unanswerable questions.

ITALIANO

Punti salienti


 Il sequenziamento di nuova generazione ha rivoluzionato le scienze della vita e probabilmente continuerà a dominare la ricerca biologica anche in futuro


 Gli identificatori molecolari univoci (UMI) funzionano come codici a barre molecolari che vengono aggiunti ai frammenti di nucleotidi prima della preparazione della libreria


 Gli UMI sono utilizzati nelle tecnologie NGS per eliminare le letture false positive che vengono spesso introdotte durante la preparazione della libreria e aumentare la sensibilità del rilevamento delle varianti vere


 RareSeq™ è un nuovo metodo NGS corretto per gli errori che utilizza gli UMI per rilevare varianti alleliche ultra rare nelle neoplasie ematologiche


Introduzione


Il sequenziamento di nuova generazione (NGS) ha rivoluzionato le scienze della vita consentendo ai ricercatori di studiare i sistemi biologici ad un livello senza precedenti. È ora possibile affrontare complesse questioni di ricerca che richiedono una profondità o un'ampiezza di informazioni genomiche oltre a ciò che i metodi tradizionali possono offrire. Con NGS, i ricercatori possono sequenziare interi genomi e regioni bersaglio (Bewicke-Copley et al., 2019), analizzare fattori epigenetici (Sarda e Hannenhalli, 2014) e condurre analisi dell'espressione genica con il sequenziamento dell'RNA (Kukurba e Montgomery, 2015). A causa dell'usciata dei dati  ultra elevato, della velocità e dei bassi costi, le tecnologie NGS continueranno probabilmente a dominare la ricerca biologica anche in futuro. La preparazione della libreria è un primo passo fondamentale in NGS e di solito comporta l'amplificazione PCR degli obiettivi di interesse.

 Sebbene necessaria, l'amplificazione PCR è una fonte principale di bias durante la generazione di dati di sequenziamento, poiché alcune trascrizioni possono essere sotto o sovrarappresentate nella libreria di sequenziamento finale. Quando il materiale di partenza è limitato, contiene lunghi frammenti o ha un alto contenuto di GC, possono propagarsi errori di elaborazione (van Dijk et al., 2014). Tali errori di elaborazione distorcono le misurazioni dell'abbondanza di trascrizione, il che pone un problema durante l'analisi del conteggio delle letture. Inoltre, trascritti di impatto e interesse biologico possono essere presenti in quantità molto basse. Sebbene ad oggi siano stati identificati molti loci genetici, non è stata ancora identificata una grande proporzione di variazione genetica che predispone un individuo alla malattia (Bomba et al., 2017). Le tecnologie NGS si sono rapidamente evolute per soddisfare le crescenti esigenze degli scienziati, che necessitano di metodi in grado di rilevare con sicurezza una singola mutazione in una popolazione di geni normali. Tuttavia, questi metodi sono estremamente specializzati ed utilizzano reagenti che mirano a varianti specifiche della malattia selezionate. Gli identificatori molecolari univoci (UMI) risolvono pragmaticamente questi problemi attraverso una modifica all'NGS convenzionale. Gli UMI sono emersi come strumenti preziosi per ridurre le letture false positive che vengono spesso introdotte durante le fasi di preparazione e sequenziamento della libreria e aumentare la sensibilità del rilevamento dell'allele variante.


Cosa sono gli UMI?


Un identificatore molecolare univoco (UMI) è un breve codice a barre molecolare utilizzato per contrassegnare in modo univoco frammenti di DNA o RNA. Gli UMI hanno una composizione di sequenza casuale che viene aggiunta prima della preparazione della libreria per garantire che ogni frammento con un UMI sia unico. Dopo che i dati sono stati raccolti, il software di bioinformatica raggruppa i frammenti di nucleotidi in "famiglie di lettura" secondo l'UMI. In questo modo, gli alleli varianti biologicamente significativi presenti nel campione originale possono essere distinti dagli errori introdotti durante l'elaborazione, come mostrato nella Figura 1. Ciò consente al software di fornire una lettura quantitativa accurata dell'abbondanza della trascrizione eliminando le letture false positive.


Ci sono due ragioni principali per cui i ricercatori impiegano un approccio basato su UMI nella ricerca NGS. Innanzitutto, gli UMI consentono l'analisi della deduplicazione che porta a misurazioni dell'abbondanza di lettura più accurate. In secondo luogo, gli UMI aumentano la sensibilità di lettura e abbassano il limite di rilevamento per identificare varianti rare e ultra rare


Umi consente l'analisi di deduplicazione per misurazioni dell'abbondanza di lettura più accurate

Una varietà di applicazioni di sequenziamento utilizza un approccio di conteggio delle letture per stimare l'abbondanza di un particolare frammento nucleotidico in condizioni biologiche o diversi tipi di cellule. Tuttavia, l'amplificazione della PCR può portare a distorsioni che possono propagarsi alle misurazioni di quantificazione. Per risolvere questo problema, gli UMI consentono l'analisi della deduplicazione per risultati di quantificazione della lettura più accurati. Nell'analisi di deduplicazione, le letture che si allineano alla stessa posizione nel genoma di riferimento vengono contrassegnate come duplicati generati durante l'amplificazione PCR e rimosse. L'analisi della deduplicazione è più appropriata per la ricerca che richiede una bassa profondità di sequenziamento ed è meno appropriata all'aumentare della profondità (Kukurba & Montgomery, 2015). Le trascrizioni altamente espresse hanno maggiori probabilità di generare più letture che mappano le stesse esatte coordinate nel genoma di riferimento, che sarà contrassegnato in modo errato come la stessa molecola durante la deduplicazione. 

Dati di sequenziamento

 Le famiglie di lettura raggruppate da UMI  consentono l'analisi di deduplicazione per misurazioni dell'abbondanza di lettura più accurate.

 Il rilevamento di varianti rare potenzialmente maligne è fondamentale poiché l'indicazione precoce della malattia spesso è correlata all'esito del paziente. Tuttavia, rilevare mutazioni rare con il sequenziamento rimane una sfida significativa determinata in gran parte dal limite di rilevamento: la capacità di risolvere frammenti di nucleotidi per distinguere una vera variante da un errore di elaborazione. Il limite di rilevamento dell'NGS standard è solo 1:100, quindi una vera variante verrà scambiata per un errore di elaborazione ogni cento volte. Gli scienziati che studiano l'eterogeneità clonale alla ricerca di indicatori precoci della malattia richiedono metodi con una sensibilità molto maggiore per risultati sicuri. Un approccio basato su UMI migliora notevolmente il limite di rilevamento oltre ciò che offre NGS standard, aumentando così la sensibilità di lettura per il rilevamento di varianti rare. In effetti, alcuni approcci basati su UMI come RareSeq migliorano notevolmente il limite di rilevamento da 1:100 a 1:10,000, fornendo la sensibilità necessaria per rilevare alleli varianti ultra-rari (Crowgey et al., 2020)

RareSeq è progettato per rilevare varianti ultra rare che possono portare a malignità


L'eterogeneità clonale è emersa come un argomento critico nella ricerca sulle malattie, poiché le cellule che ospitano mutazioni driver possono predisporre gli individui alla malignità. Rilevare queste varianti ultra rare è fondamentale o monitorare la malattia minima residua (MRD) nei pazienti con leucemia mieloide acuta, dove l'indicazione precoce è correlata all'esito del paziente (Creutzig et al., 2014). I ricercatori della Washington University Medical School di St. Louis hanno notato che l'NGS standard manca della sensibilità quantitativa per il monitoraggio della MRD a causa di un tasso di errore intrinsecamente elevato. Per affrontare questo problema, i ricercatori hanno sviluppato RareSeq, un approccio mirato al sequenziamento corretto per gli errori che utilizza gli UMI per aumentare drasticamente la sensibilità di un centinaio di volte rispetto all'NGS standard (Crowgey et al., 2020).


Con questa tecnologia, Crowgey e colleghi (2020) sono stati in grado di rilevare mutazioni leucemiche clonali precedentemente non rilevabili con un alto grado di sensibilità, consentendo un monitoraggio MRD più accurato. Si pensa che mutazioni negli stessi geni implicati nella MRD siano anche responsabili di almeno alcuni casi di emopoiesi clonale a potenziale indeterminato (CHIP). I ricercatori hanno sfruttato la potenza di RareSeq e hanno rilevato cloni ematopoietici nel 95% degli individui studiati, un numero molto maggiore di quello rilevabile con NGS standard (Young et al., 2016). Presi insieme, i dati di questi studi dimostrano l'utilità di RareSeq per identificare mutazioni ultrarare che possono portare a neoplasie ematologiche. Canopy Biosciences offre il sequenziamento corretto per gli errori RareSeq come servizio per gli scienziati che conducono ricerche volte a rilevare mutazioni associate a AML ultra rare.


Riepilogo

 Poiché è aumentata la necessità di metodi di sequenziamento più accurati e sensibili, gli scienziati si sono rivolti ad approcci basati sull'UMI per la ricerca genomica. In questo articolo, riassumiamo le principali applicazioni degli UMI, ovvero la loro capacità di fornire una quantificazione del conteggio delle letture più accurata e migliorare il limite di rilevamento per rilevare con sicurezza varianti rare. Sebbene esistano numerosi esempi, descriviamo un approccio di sequenziamento mirato basato su UMI chiamato RareSeq, progettato per rilevare alleli varianti ultra-rari che predispongono gli individui a neoplasie ematologiche. I ricercatori hanno già dimostrato l'utilità di RareSeq per identificare mutazioni ultra rare che possono essere implicate in MRD e CHIP (Crowgey et al., 2020; Young et al, 2016).

 In sintesi, gli UMI si sono evoluti come una soluzione chiave nella ricerca NGS per rispondere a domande precedentemente senza risposta.


Da:

https://offers.the-scientist.com/hubfs/downloads/TS/TS_Canopy%20Biosciences/TS_PPL_Canopy_NGS_White%20Paper/Why_UMI_White_Paper-The_Scientist_Link-FINAL_(002).pdf?hsCtaTracking=2021193f-6814-46d8-885f-165b72f6276f%7C65791b2a-288b-4582-89bb-9eb2d00e9b0f


Commenti

Post popolari in questo blog

Paracetamolo, ibuprofene o novalgina: quali le differenze? / acetaminophen, ibuprofen, metamizole : what are the differences?

Gli inibitori SGLT-2 potrebbero aiutare a prevenire la demenza / SGLT-2 Inhibitors Could Help Prevent Dementia

Dosi elevate di alcuni stimolanti possono aumentare il rischio di psicosi / High Doses of Some Stimulants Can Increase Psychosis Risk