Misurazione della genetica e dell'epigenetica con risoluzione a base singola / Measuring Genetics and Epigenetics at Single-Base Resolution

Misurazione della genetica e dell'epigenetica con risoluzione a base singolaMeasuring Genetics and Epigenetics at Single-Base Resolution


Segnalato dal Dott. Giuseppe Cotellessa / Reported by Dr. Giuseppe Cotellessa



Figure 1 | duet multiomics solution evoC is a 6-base calling technology that reads all four canonical bases plus 5mC and 5hmC. /  La soluzione duet multiomics evoC è una tecnologia di chiamata a 6 basi che legge tutte e quattro le basi canoniche più 5mC e 5hmC.

Le attuali tecnologie basate su NGS scoprono solo informazioni provenienti dalle quattro basi genetiche, trascurando i dettagli che le modifiche epigenetiche forniscono sull’espressione genetica.

Le distinzioni cruciali tra le modifiche della metilcitosina (5mC) e dell'idrossimetilcitosina (5hmC) aggiungono complessità alla dinamica della metilazione del DNA. Pertanto, l'integrazione dei dati genetici e di metilazione rappresenta un'opportunità unica per misurare queste modifiche della citosina rispetto all'espressione genica. 

Questo evidenzia una tecnologia di sequenziamento all'avanguardia in grado di risolvere simultaneamente tutte e quattro le basi genetiche insieme allo stato di modificazione della citosina. 

Questo per esplorare:

  • Come funziona il sequenziamento a 6 basi
  • Approfondimenti sull'accessibilità della cromatina e sugli stati potenziatori 
  • Il potenziale delle modificazioni epigenetiche codificate dal DNA nel predire l'espressione genica 
1. Introduzione

La modificazione della citosina predominante nel DNA è la metilcitosina (5mC). Questa base sembra esercitare un profondo impatto sui modelli di espressione genica ed è comunemente collegata alla repressione trascrizionale. L'introduzione dell'idrossimetilazione (5hmC) aggiunge un nuovo livello di complessità alla comprensione convenzionale delle dinamiche di metilazione del DNA, che spesso si ritiene sia correlata all'espressione genica. Vincolate a misurare quattro stati di informazione, le tecnologie esistenti basate su NGS sacrificano le informazioni genetiche per la chiamata di modificazione senza distinguere tra questi due importanti stati di modificazione. I dati genetici e di metilazione combinati insieme rappresentano un'opportunità unica per misurare queste modifiche della citosina rispetto all'espressione genica. La soluzione duet multiomics evoC è una nuova tecnologia di sequenziamento che risolve tutte e quattro le basi genetiche insieme alla capacità di distinguere lo stato di modificazione delle citosine, discriminando 5mC da 5hmC (6 chiamate di base). La tecnologia consiste nel pre-sequenziamento della preparazione delle librerie con conversione enzimatica del DNA insieme ad una organizzazione di analisi, ottenendo una risoluzione di base della genetica e dell'epigenetica con elevata precisione. Qui presentiamo il metodo, insieme ad un'analisi di sequenziamento ad alta profondità delle cellule staminali embrionali del topo. Dimostriamo il potenziale delle modifiche epigenetiche codificate nel DNA per prevedere altri importanti potenziali modulatori dell'espressione genica come la cromatina aperta e gli stati potenziatori, nonché l'espressione stessa dell'RNA.

2. Soluzione NGS duetto multiomica evoC

Sintesi del filamento: crea una singola molecola con una copia diretta delle informazioni originali legate insieme da una forcina. Il filamento di copia inizialmente non presenta modifiche alla citosina, ma, cosa importante, utilizza una metiltransferasi ad alta fedeltà per copiare su soli 5 mC dal filamento originale a quello di copia

Sequenziamento: genera informazioni sulla sequenza dopo la protezione delle modifiche della citosina seguita dalla deaminazione di tutte le citosine rimanenti (lette come timina in NGS).

Risoluzione di lettura: utilizza le informazioni sull'identificazione delle basi sia dal filamento originale che da quello della copia per chiamare correttamente tutte e 4 le basi canoniche insieme a 5mC e 5hmC.

Allineamento: risultati in letture allineate di 4 basi con 5 mC e 5 hmC come informazioni contrassegnate (informazioni su 6 basi)

3. 5hmC e 5mC sono correlati all'accessibilità della cromatina ed all'mRNA 4. Espressione genica

La deconvoluzione dell'epigenetica codificata dal DNA per la linea cellulare E14 mESC utilizzando duet evoC sembra essere correlata all'espressione genica ed alla cromatina aperta.

Qui mostriamo IGV in due regioni del genoma che mostra come le modifiche 5mC e 5hmC variano nella cromatina aperta e chiusa come definito da ATAC-seq (barre verde acqua) e come questo modello di variazione riflette anche l'RNA appena sintetizzato (TTseq[2 ], barre blu). Le modifiche della citosina sembrano riflettere l'espressione genica e questi dati sembrano confermare che 5mC e 5hmC hanno effetti opposti.

4. Espressione genica

Utilizzo dell'apprendimento automatico per correlare i modelli di variazione 5hmC e 5mC con il sequenziamento dell'RNA (RNA-seq) ed il sequenziamento dell'RNA nascente (RNA appena sintetizzato, TT-seq).

Qui, abbiamo diviso il genoma in una serie di regioni genomiche (promotori, 250kb attorno a TSS, 5' UTR, primi introni ed esoni, introni, esoni, 3' UTR e 5kb a valle) ed abbiamo calcolato la frazione media di 5 mC e 5 hmC da misurazioni duetto evoC. Queste caratteristiche (meno chr. 8), insieme al numero di CpG ed alla lunghezza della regione, sono state utilizzate per addestrare un semplice modello di regressione (XGBoost) utilizzando i dati pubblicati sull'mRNA di E14[2,3]. Abbiamo applicato il modello a chr. 8. Per i dati RNA-seq di massa (A), troviamo una buona correlazione (R2~0,75) tra l'espressione prevista e quella effettiva. Per i dati dell'RNA nascente (TT-seq, B), abbiamo scoperto che il modello era in grado di prevedere meglio l'espressione con una correlazione leggermente più elevata di (R2~0,85).

5. Accessibilità della cromatina

Utilizzo dell'apprendimento automatico per prevedere l'accessibilità della cromatina attorno al TSS utilizzando 5hmC e 5mC misurati. ATAC-seq viene spesso utilizzato per indicare la cromatina aperta a causa della capacità dell'enzima trasposasi di marcare le regioni accessibili del genoma.

Qui, abbiamo misurato le frazioni medie di 5 mC e 5 hmC per regioni da 1 kb attorno a ciascun TSS (sito di inizio trascrizione) e le abbiamo utilizzate come caratteristiche. Utilizzando ciascuna di queste caratteristiche, insieme al numero di CpG ed alla lunghezza della regione, abbiamo addestrato un semplice modello di regressione (XGBoost) sui dati ATAC-seq disponibili pubblicamente per la linea cellulare E14 mESC. Il set di addestramento ha utilizzato tutti i cromosomi tranne il cromosoma 8. Sono tracciati i valori di accessibilità della cromatina ATAC-seq previsti rispetto a quelli osservati per il set di dati di test (cromosoma 8). Qui troviamo che l'accessibilità prevista dal modello è correlata all'accessibilità sul cromosoma 8 con un R2 di 0,83.

6. Stati potenziatori

 Il potenziatore afferma:

Represso: non migliora l'espressione genica

Primed: è pronto per attivare l'espressione genica

Attivo: migliora attivamente l'espressione genica


Classificazione degli stati potenziatori nello spazio delle frazioni 5mC e 5hmC.

Gli stimolatori sono regioni regolatrici ad azione cis che hanno un profondo effetto sui programmi di espressione genica specifici del tipo cellulare. Queste regioni sono tipicamente classificate in base alle modifiche istoniche nei nucleosomi fiancheggianti. Gli potenziatori attivi (H3K4me1 e H3K27ac) hanno livelli bassi di 5 mC e 5 hmC, gli potenziatori innescati (H3K4me1 ma non H3K27ac) hanno livelli moderati di 5 mC e alti 5 hmC e gli potenziatori repressi (H3K9me3) hanno livelli alti di 5 mC e bassi 5 hmC. Un modello SVM è in grado di classificare i tre gruppi con una precisione dell'85,5% basandosi solo sui livelli di 5 mC e 5 hmC (le diverse sfumature rappresentano i confini decisionali del classificatore).

7. Conclusioni

Qui presentiamo la soluzione duet multiomics evoC, un metodo enzimatico che legge le quattro basi canoniche nel DNA insieme al potere di leggere le informazioni epigenetiche codificate nel DNA. Questa informazione è codificata in due importanti modifiche della citosina, 5mC e 5hmC, che sembrano avere uno schema opposto se esaminate attraverso la lente dell'espressione genica. 5mC sembra essere repressivo: è correlato alle regioni silenziate del genoma. Al contrario, si ritiene che livelli elevati di 5hmC si trovino in regioni del genoma che sembrano essere attive. Qui, esaminiamo i modelli di variazione in queste due modifiche della citosina risolte per la prima volta in un unico flusso di lavoro nelle cellule staminali embrionali di topo. Abbiamo utilizzato queste misurazioni per addestrare modelli che possono essere utilizzati per prevedere la cromatina accessibile (TSS), il sequenziamento dell'RNA sia in massa che nell'RNA appena sintetizzato. Infine, mostriamo che la classificazione dei potenziatori in questa linea cellulare, che sono spesso importanti per stabilire programmi di espressione genica specifici del tessuto, può essere raggruppata utilizzando modifiche della citosina nel DNA.

Ciò dimostra il potere di leggere tutte e sei le basi come una nuova lente per esaminare le informazioni dinamiche codificate nel DNA.

ENGLISH

Current NGS-based technologies only uncover information from the four genetic bases, overlooking the detail that epigenetic modifications give about gene expression.

Crucial distinctions between methylcytosine (5mC) and hydroxymethylcytosine (5hmC) modifications add complexity to DNA methylation dynamics. Hence, the integration of genetic and methylation data presents a unique opportunity to measure these cytosine modifications against gene expression. 

This poster highlights a cutting-edge sequencing technology which can simultaneously resolve all four genetic bases alongside cytosine modification status. 

Download this poster to explore:

  • How 6-base sequencing works
  • Insights into chromatin accessibility and enhancer states 
  • The potential of DNA-encoded epigenetic modifications in predicting gene expression 
1. Introduction 

The predominant cytosine modification in DNA is methylcytosine (5mC). This base appears to exert a profound impact on gene expression patterns and is commonly linked to transcriptional repression. The introduction of hydroxymethylation (5hmC) adds a new layer of complexity to the conventional comprehension of DNA methylation dynamics, which is often thought to correlate with gene expression. Constrained to measuring four states of information, existing NGS-based technologies sacrifice genetic information for modification calling without distinguishing between these two important modification states. Genetic and methylation data combined together presents a unique opportunity to measure these cytosine modifications against gene expression. duet multiomics solution evoC is a new sequencing technology that resolves all four genetic bases alongside the ability to distinguish modification status of cytosines, discriminating 5mC from 5hmC (6 base calling). The technology consists of pre-sequencing library prep with enzymatic conversion of DNA together with an analysis pipeline, achieving base resolution of genetics and epigenetics at high accuracy. Here we present the method, alongside a high depth sequencing analysis of mouse embryonic stem cells. We demonstrate the potential of epigenetic modifications encoded in DNA to predict other important potential modulators of gene expression such as open chromatin and enhancer states as well as RNA expression itself. 

2. NGS  duet multiomics solution evoC

Strand synthesis - creates a single molecule with a direct copy of the original information tethered together with a hairpin. The copy strand is without cytosine modifications initially, but importantly, utilises a high fidelity methyltransferase to copy over only 5mC from the original to the copy strand 

Sequencing - generates sequence information after protection of cytosine modifications followed by deamination of all remaining cytosines (read as thymine in NGS). 

Read resolution - uses base call information from both the original and copy strands to correctly call all 4 canonical bases along with 5mC and 5hmC. 

Alignment - results in aligned 4-base reads with 5mC & 5hmC as tagged information (6 base information) 

3. 5hmC and 5mC correlates with chromatin accessibility & mRNA. Gene expression 

Deconvolution of DNA encoded epigenetics for the E14 mESC cell-line using duet evoC appears to correlate with gene expression and open chromatin.

Here we show an IGV plot at two regions of the genome showing how 5mC and 5hmC modifications vary in open and closed chromatin as defined by ATAC-seq (teal bars), and how this pattern of variation also reflects newly synthesised RNA (TTseq[2], blue bars). Cytosine modifications appear to reflect gene expression and these data appear to confirm that 5mC and 5hmC have opposing effects.

4. Gene expression

 Using machine learning to correlate 5hmC and 5mC patterns of variation with RNA sequencing (RNA-seq) and nascent RNA sequencing (newly synthesised RNA, TT-seq).

Here, we split the genome into a series of genomic regions (promoters, 250kb around TSS, 5' UTRs, first introns and exons, introns, exons, 3' UTRs, and 5kb downstream), and computed the mean 5mC and 5hmC fraction from duet evoC measurements. These features (minus chr. 8), along with the number of CpGs and region length, were used to train a simple regression model (XGBoost) using published E14 mRNA data. We applied the model to chr. 8. For bulk RNA-seq data (A), we find a good correlation (R2~0.75) between predicted and actual expression. For nascent RNA data (TT-seq, B), we found that the model was able to better predict expression with a slightly higher correlation of (R2~0.85).

5. Chromatin accessibility

Using machine learning to predict chromatin accessibility around TSS using measured 5hmC and 5mC. ATAC-seq is often used to indicate open chromatin owing to the ability of the transposase enzyme to tagment accessible regions of the genome.

 Here, we measured mean 5mC and 5hmC fractions for 1kb regions around each TSS (transcriptional start site) and used them as features. Using each of these features, along with the number of CpGs and length of the region, we trained a simple regression model (XGBoost) on publicly available ATAC-seq data for the E14 mESC cell-line. The training set used all chromosomes except chromosome 8. Plotted are predicted versus observed ATAC-seq chromatin accessibility values for the test dataset (chromosome 8). Here we find that the accessibility predicted by the model correlates with accessibility on chromosome 8 with an R2 of 0.83. 

6. Enhancer states

Enhancer states: 

Repressed: does not enhance gene expression

Primed: is ready to activate gene expression 

Active: actively enhances gene expression

Classification of enhancer states in the 5mC vs. 5hmC fraction space. 

Enhancers are cis-acting regulatory regions that have a profound effect on cell-type specific gene expression programs. These regions are typically classified by histone modifications in flanking nucleosomes. Active enhancers (H3K4me1 & H3K27ac) have low 5mC and 5hmC levels, primed enhancers (H3K4me1 but not H3K27ac) moderate 5mC and high 5hmC levels, and repressed enhancers (H3K9me3) have high 5mC and low 5hmC levels. An SVM model is able to classify the three groups with 85.5% accuracy based on their 5mC and 5hmC levels only (different shades represent the decision boundaries of the classifier).

7. Conclusions

Here we present duet multiomics solution evoC, an enzymatic method that reads the four canonical bases in DNA together with the power to read epigenetic information encoded in DNA. This information is encoded in two important cytosine modifications, 5mC and 5hmC, that appear to have an opposing pattern when examined through the lens of gene expression. 5mC appears to be repressive - it correlates with silenced regions of the genome. In contrast, high 5hmC levels are thought to be found in regions of the genome that appears to be active. Here, we examine patterns of variation in these two cytosine modifications resolved for the first time in a single workflow in mouse embryonic stems cells. We used these measurements to train models that can be used to predict accessible chromatin (TSS), RNA-sequencing both in bulk and newly synthesised RNA. Finally, we show that enhancer classification in this cell-line, which are often important for establishing tissue specific gene expression programs, can be grouped using cytosine modifications in DNA. 

This demonstrates the power of reading all six bases as a new lens to examine the dynamic information encoded in DNA. 
 

Da:

https://www.technologynetworks.com/tn/posters/measuring-genetics-at-single-base-resolution-385153?utm_campaign=TN%203rd%20Party%20Landing%20Pages&utm_medium=email&_hsenc=p2ANqtz-_LhiK2G5IV02vlTYfEjnjtSZ6DfCClJMVMXOkjzJUSGgv9-jXQgq8N-cHuy1igLNQB9dRsZN02Eqhbn2nEDHEftusxxr-p6FcHo10XQ6SXGxvTKMc&_hsmi=303767266&utm_content=303767266&utm_source=hs_email


Commenti

Post popolari in questo blog

Paracetamolo, ibuprofene o novalgina: quali le differenze? / acetaminophen, ibuprofen, metamizole : what are the differences?

Diminuire l'ossigeno per aumentare la longevità? / Decrease Oxygen to Boost Longevity?

Sci-Fi Eye: il nostro futuro urbano / Sci-Fi Eye: Our Urban Future