File Secondary Analysis Output DRAGEN
Questa sezione fornisce informazioni su ogni applicazione DRAGEN, incluse le informazioni sui file di output. Oltre a generare file specifici per ciascuna applicazione, DRAGEN fornisce le metriche dall’analisi in un file <sample_name>.metrics.json e i report descritti nei Report di analisi secondaria NovaSeq X Plus. Per maggiori informazioni su DRAGEN, consultare la pagina sul sito di supporto della Illumina DRAGEN Bio-IT Platform.
Tutte le pipeline DRAGEN supportano la decompressione dei file di input BCL e la compressione dei file di output BAM/CRAM. I file BAM non vengono caricati nella Illumina DRAGEN Bio-IT Platform se è stata selezionata l’opzione Proactive, Run Monitoring and Storage (Servizio proattivo, monitoraggio e archiviazione corsa).
L’applicazioneDRAGEN Methylation supporta le seguenti funzioni:
| • | Decompressione dei dati BCL di input |
| • | Conversione FASTQ |
| • | Compressione FASTQ nei formati ORA o Gzip |
| • | Mappatura/Allineamento (include l’ordinamento e la marcatura dei duplicati) |
| • | Compressione BAM/CRAM (facoltativo) |
| • | Generazione di metriche e report |
Sono necessari i seguenti input:
| • | Dati BCL generati dallo strumento NovaSeq X Plus |
| • | Foglio campioni |
Questo flusso di lavoro richiede un genoma di riferimento specifico per la metilazione (ad es., Homo sapiens [1000 Genomes] hg38 Alt Masked v2 Methylation).
DRAGEN Methylation genera i seguenti file di output.
|
Componente |
Tipo |
Nome del file di output |
||||||
|---|---|---|---|---|---|---|---|---|
|
Mappatura/Allineamento |
BAM o CRAM |
|
||||||
|
Generazione di report
|
GZ |
|
||||||
|
TXT |
|
|||||||
|
Generazione delle metriche
|
CSV |
|
L’applicazione DRAGEN Somatic supporta le seguenti funzioni:
| • | Decompressione dei dati BCL di input |
| • | Conversione FASTQ |
| • | Compressione FASTQ nei formati ORA o Gzip |
| • | Mappatura/Allineamento (include l’ordinamento e la marcatura dei duplicati) |
| • | Compressione BAM/CRAM (facoltativo) |
| • | Identificazione delle varianti |
| • | Tagging della linea germinale |
Quando viene utilizzato il parametro VariantCallingMode, la pipeline supporta algoritmi per i seguenti identificatori delle varianti:
| • | Nessuno |
| • | Identificatori di varianti piccole |
| • | Identificatori di tutte le varianti: |
| – | Piccola |
| – | Strutturale |
| – | Varianti del numero di copie (per gli esseri umani, genomi di riferimento integrati sullo strumento) |
Sono necessari i seguenti input:
| • | Dati BCL generati dallo strumento NovaSeq X Plus |
| • | Foglio campioni |
I seguenti input sono facoltativi:
| • | AuxBaselineNoiseFile |
| • | AuxSvBaselineNoiseFile |
| • | AuxCnvPopBAlleleVcfFile |
| • | AuxGermlineTaggingFile |
DRAGEN Somatic genera i seguenti file di output.
|
Componente |
Tipo |
Nome del file di output |
Requisiti per l’output |
|||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
Mappatura/Allineamento |
BAM o CRAM |
|
N/D |
|||||||||
|
Identificazione di varianti piccole |
VCF e gVCF |
|
|
|||||||||
|
Identificazione di varianti strutturali |
VCF |
|
|
|||||||||
|
Varianti del numero di copie |
VCF |
|
|
|||||||||
|
Generazione delle metriche
|
CSV |
|
N/D |
L’applicazione DRAGEN Enrichment supporta le seguenti funzioni:
| • | Decompressione dei dati BCL di input |
| • | Conversione FASTQ |
| • | Compressione FASTQ nei formati ORA o Gzip |
| • | Mappatura/Allineamento (include l’ordinamento e la marcatura dei duplicati) |
| • | Compressione BAM/CRAM (facoltativo) |
| • | Identificazione delle varianti |
Quando viene utilizzato il parametro VariantCallingMode, la pipeline supporta algoritmi per i seguenti identificatori delle varianti:
| • | Nessuno |
| • | Identificatori di varianti piccole |
| • | Identificatori di tutte le varianti: |
| – | Piccola |
| – | Strutturale |
| – | Varianti del numero di copie (per gli esseri umani, genomi di riferimento integrati sullo strumento) |
Sono necessari i seguenti input:
| • | Dati BCL generati dallo strumento NovaSeq X Plus |
| • | Foglio campioni |
| • | BedFile (se la modalità identificazione di varianti non è uguale a nessuna) |
| • | GermlineOrSomatic |
I seguenti input sono facoltativi:
| • | AuxBaselineNoiseFile |
| • | AuxCnvPanelOfNormalsFile (se la Modalità di identificazione delle varianti è uguale a AllVariantCallers) |
DRAGEN supporta opzioni per migliorare le prestazioni in modalità somatica con l’input di un file della linea di base del rumore. Per CNV è necessario un file Panel of Normals (Pannello dei parametri normali).
DRAGEN Enrichment genera i seguenti file di output.
|
Componente |
Tipo |
Nome del file di output |
||||||
|---|---|---|---|---|---|---|---|---|
|
Mappatura/Allineamento |
BAM o CRAM |
|
||||||
|
Identificazione di varianti piccole |
VCF e gVCF* |
|
||||||
|
Identificazione di varianti strutturali |
VCF |
|
||||||
|
Varianti del numero di copie |
VCF |
|
||||||
|
Generazione delle metriche
|
CSV |
|
* I file di output gVCF sono disponibili solo in modalità Germline.
L’applicazione DRAGEN Germline supporta le seguenti funzioni:
| • | Decompressione dei dati BCL di input |
| • | Conversione FASTQ |
| • | Compressione FASTQ nei formati ORA o Gzip |
| • | Mappatura/Allineamento (include l’ordinamento e la marcatura dei duplicati) |
| • | Compressione BAM/CRAM (facoltativo) |
| • | Identificazione delle varianti |
La pipeline supporta algoritmi per i seguenti identificatori delle varianti:
| • | Nessuno |
| • | Identificatori di varianti piccole |
| • | Identificatori di tutte le varianti: |
| – | Piccola |
| – | Strutturale |
| – | Varianti del numero di copie (per gli esseri umani, genomi di riferimento integrati sullo strumento) |
| – | Espansione di ripetizioni (per gli esseri umani, genomi di riferimento integrati sullo strumento) |
| – | Regioni di omozigosi (per gli esseri umani, genomi di riferimento integrati sullo strumento) |
| – | Rilevamento di CYP2D6 |
Sono necessari i seguenti input:
| • | Dati BCL generati dallo strumento NovaSeq X Plus |
| • | Foglio campioni |
DRAGEN Germline genera i seguenti file di output.
|
Componente |
Tipo |
Nome del file di output |
Requisiti per l’output |
||||||
|---|---|---|---|---|---|---|---|---|---|
|
Mappatura/Allineamento |
BAM o CRAM |
|
N/D |
||||||
|
Identificazione di varianti piccole |
VCF e gVCF |
|
N/D |
||||||
|
Identificatore di varianti strutturali |
VCF |
|
Generati solo per le letture paired-end |
||||||
|
Varianti del numero di copie |
VCF |
|
Solo genomi umani |
||||||
|
Espansione di ripetizioni |
VCF |
|
Solo genomi umani |
||||||
|
Regioni omozigotiche |
CSV e BED |
|
Solo genomi umani |
||||||
|
Rilevamento di CYP2D6 |
TSV |
|
Solo genomi umani |
||||||
|
Generazione delle metriche |
CSV |
|
N/D |
L’applicazione DRAGEN RNA supporta le seguenti funzioni:
| • | Decompressione dei dati BCL di input |
| • | Generazione di file FASTQ |
| • | Compressione FASTQ (ORA o Gzip) |
| • | Mappa/Allineamento (include l’ordinamento) |
| • | [Facoltativo] Compressione BAM/CRAM |
| • | [FullPipeline] Rilevamento della fusione genica |
| • | [FullPipeline] Espressione genica dell’intero trascrittoma (quantificazione dei trascritti) |
Anche l’espressione differenziale è supportata in modo facoltativo.
Sono necessari i seguenti input:
| • | Dati BCL generati dallo strumento NovaSeq X Plus |
| • | Foglio campioni |
Il seguente input è facoltativo:
| • | RnaGeneAnnotationFile |
Un RnaGeneAnnotationFile è impacchettato con ciascun genoma di riferimento umano fornito da Illumina. Se un RnaGeneAnnotationFile viene fornito dal cliente durante l’impostazione della corsa, viene utilizzato al posto del file impacchettato con il genoma. Se un RnaGeneAnnotationFile non è disponibile con il genoma fornito da Illumina o direttamente dal cliente, le fasi di fusione genica e quantificazione dell’RNA vengono saltate. Se l’espressione differenziale è abilitata, deve essere fornito un file RnaGeneAnnotation.
DRAGEN RNA genera i seguenti file di output.
|
Componente |
Tipo |
Nome del file di output |
Descrizione |
||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
Mappatura/Allineamento |
BAM o CRAM |
|
Output dell’allineamento assieme alle specifiche SAM. |
||||||||||||
|
Rilevamento della fusione genica |
Testo |
|
|
||||||||||||
|
Quantificazione dei trascritti |
Testo |
|
|
||||||||||||
|
Metriche |
JSON, CSV |
|
|
||||||||||||
|
Espressione differenziale |
PNG |
Consultare la seguente tabella contenente i file di output dell’espressione differenziale. |
Per generare i file di output, deve essere impostato un confronto nel foglio campioni. |
I seguenti file vengono generati quando è attivata l’espressione differenziale.
|
Nome file |
Descrizione |
|---|---|
|
Control_vs_Comparison.genes.counts.csv |
Descrive il numero di letture mappate su ogni gene per ogni campione nei gruppi di controllo e confronto. |
|
Control_vs_Comparison.genes.res.csv |
Contiene i risultati DESeq2, che descrivono l’espressione media, il log2 (variazione), l’errore standard di log2 (variazione), il valore p, il valore p aggiustato e lo stato dell’espressione per ogni gene. |
|
Control_vs_Comparison.genes.rlog.csv |
Contiene conteggi log trasformati regolarizzati calcolati da DESeq2 |
|
Control_vs_Comparison.differential_expression_metrics.csv |
Contiene le metriche per l’analisi dell’espressione differenziale. |
|
Control_vs_Comparison.genes.heatmap.png |
Grafico che mostra una mappa termica dell’espressione dei geni espressi in modo differenziale con valori p aggiustati < -0,05 per i campioni nei gruppi di controllo e confronto. Solo i primi 30 geni espressi in modo differenziale vengono utilizzati se vi sono più di 30 geni espressi in modo differenziale. Questo file non è disponibile quando DESeq2 non riesce a convergere o quando non vi sono geni espressi in modo differenziale. |
|
Control_vs_Comparison.genes.ma.png |
Variazione dei report dell’espressione genica come funzione dell’intensità media del segnale. Il grafico mostra le differenze tra le misurazioni effettuate in due campioni, trasformando i dati in scale M (rapporto logaritmico) e A (media aritmetica), quindi tracciando questi valori in un grafico. Il grafico MA mostra le variazioni log2 attribuibili a una determinata variabile rispetto alla media dei conteggi normalizzati per tutti i campioni. Se il valore p aggiustato è inferiore a 0,1, i punti sono rossi. I punti al di fuori dalla finestra vengono tracciati come triangoli aperti con l’apice verso l’alto o il basso. |
|
Control_vs_Comparison.genes.pca.png |
Il grafico si basa sui primi due componenti principali che spiegano la variazione maggiore. |
L’applicazione DRAGEN BCL Convert supporta le seguenti funzioni:
| • | Decompressione dei dati BCL di input |
| • | Demultiplex campioni |
| • | Gestione di UMI e adattatori |
| • | Impostazioni per campione |
| • | Generazione di file FASTQ |
| • | Compressione dei file FASTQ nei formati ORA o Gzip |
| • | Generazione di metriche FASTQ QC (solo per i primi 1.024 campioni) |
Sono necessari i seguenti input:
| • | Dati BCL generati dallo strumento NovaSeq X Plus |
| • | RunInfo.xml |
| • | Foglio campioni |
DRAGEN BCL Convert genera i seguenti output.
|
Componente |
Tipo |
Nome del file di output |
||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
BclConvert |
FASTQ |
|
La pipeline DRAGEN BCL Convert utilizza i dati BCL generati dalla corsa di sequenziamento e le informazioni del foglio campioni per ottenere un file FASTQ. Il nome del file FASTQ è <Sample_ID>_Sm_L00n_Rp_001.fastq.gz.
Per impostazione predefinita, tutte le pipeline DRAGEN generano i seguenti file demultiplex. I file aggregati vengono memorizzati nella cartella Demux.
|
Componente |
Tipo |
Nome del file di output |
|||
|---|---|---|---|---|---|
|
Demultiplex |
CSV |
|
|||
|
Principali codici a barre sconosciuti |
CSV |
|
|||
|
Hopping indice |
CSV |
|
Per tutte le pipeline, DRAGEN FastQC genera grafici QC per impostazione predefinita. I risultati CQ aggregati sono memorizzati nella cartella AggregatedReports.
Le metriche vengono generate solo se il numero di campioni è inferiore o uguale a 1.024.
