Outputfiler til den sekundære DRAGEN -analyse
Dette afsnit indeholder oplysninger om de enkelte DRAGEN-pipelines, herunder oplysninger om outputfiler. Udover at generere filer, der er specifikke for hver pipeline, frembringer DRAGEN målinger fra analysen i en <sample_name>.metrics.json-fil og de rapporter, der er beskrevet i DRAGEN BCL Convert-pipeline. For yderligere oplysninger om DRAGEN, henvises der til siden om DRAGEN Bio-IT Platform på supporthjemmesiden.
Alle DRAGEN-pipelines understøtter dekomprimering af BCL-inputfiler og komprimering af BAM/CRAM-outputfiler.
Alle DRAGEN-pipelines understøtter også generering af FASTQ.ora-filer med DRAGEN Original Read Archive (ORA)-komprimering. ORA-komprimering reducerer størrelsen på FASTQ-filer op til 5x. For yderligere oplysninger, henvises der til Illuminas supporthjemmeside.
Overvejelser vedrørende outputfiler:
| • | For Germline-, RNA-, Enrichment- og DNA Amplicon-pipelines, der kører analyse på instrumentet, bliver der ikke overført BAM-filer til BaseSpace Sequence Hub, hvis der er valgt Proactive, Run Monitoring and Storage (Proactive, kørselsmonitorering og lagring). |
DRAGEN Enrichment-pipelinen understøtter følgende funktioner. Hvis DRAGEN 3.7 eller nyere anvendes, understøttes både kimcelletilstand og somatisk tilstand (kun tumor).
| • | Demultipleksering af prøver |
| • | Kortlægning og alignment, herunder sortering og markering af dubletter |
| • | Bestemmelse af små varianter |
| • | Bestemmelse af strukturelle varianter |
| • | Kopiér nummervariantbestemmelse (version 3.10 eller senere) |
For at udføre variationsbestemmelse skal der inkluderes en *.bed-fil i prøvearket, eller angives en *.bed-fil under Kørselsplanlægning på BaseSpace Sequence Hub. Der bliver kun genereret bestemmelse af strukturelle variationer for parvise læsninger og kimcelletilstand.
Ved brug af DRAGEN Enrichment version 3.8 eller nyere kan du indlæse en baselinefil for støj for at forbedre ydeevnen i somatisk tilstand. Se Import af baselinefiler for støj.
Hvis der anvendes bestemmelse med kopinummervariant (CNV), skal der angives et panel af normaler. Se Importpanel for normaler for CNV-bestemmelse.
Pipelinen genererer følgende outputfiler.
|
Komponent |
Type |
Outputfilens navn |
||||||
|---|---|---|---|---|---|---|---|---|
|
Kortlægning/alignment |
BAM eller CRAM |
|
||||||
|
Bestemmelse af små varianter |
VCF og gVCF* |
|
||||||
|
Bestemmelse af strukturelle varianter |
VCF |
|
||||||
|
Bestemmelse af kopinummervariant |
VCF |
|
* gVCF-outputfiler er kun tilgængelige for kimcellelinje-tilstand.
DRAGEN Germline-pipelinen understøtter følgende funktioner:
| • | Demultipleksering af prøver |
| • | Kortlægning og alignment, herunder sortering og markering af dubletter |
| • | Bestemmelse af små varianter |
| • | Bestemmelse af strukturelle variationer for parvise læsninger |
| • | Bestemmelse af variationer i kopiantal for humane genomer |
| • | Repeat-ekspansioner for humane genomer |
| • | Homozygositetsområder for humane genomer |
| • | [DRAGEN v3.8 eller nyere] CYP2D6-detektion |
Der bliver kun genereret bestemmelse af strukturelle variationer for parvise læsninger.
Pipelinen genererer følgende outputfiler.
|
Komponent |
Type |
Outputfilens navn |
||||||
|---|---|---|---|---|---|---|---|---|
|
Kortlægning/alignment |
BAM eller CRAM |
|
||||||
|
Bestemmelse af små varianter |
VCF og gVCF |
|
||||||
|
Variantbestemmelsesprogram for strukturelle varianter |
VCF |
|
||||||
|
Kopinummer af variantbestemmelse |
VCF |
|
||||||
|
Repeat-ekspansion |
VCF |
|
||||||
|
Homozygositetsområder |
CSV og BED |
|
||||||
|
CYP2D6-detektion |
TSV |
|
DRAGEN-pipelinen understøtter følgende funktioner:
| • | Demultipleksering af prøver |
| • | Kortlægning og alignment, herunder sortering og markering af dubletter |
| • | Bestemmelse af små variationer i kimcelletilstand eller somatisk tilstand. |
For at udføre variationsbestemmelse skal der inkluderes en *.bed-fil i prøvearket, eller angives en *.bed-fil under Kørselsplanlægning på BaseSpace Sequence Hub.
Pipelinen genererer følgende outputfiler.
|
Komponent |
Type |
Outputfilens navn |
||||||
|---|---|---|---|---|---|---|---|---|
|
Kortlægning/alignment |
BAM eller CRAM |
|
||||||
|
Bestemmelse af små varianter |
VCF og gVCF* |
|
* gVCF-outputfiler er kun tilgængelige i kimcelletilstand.
DRAGEN RNA-pipelinen understøtter følgende funktioner
| • | Demultipleksering af prøver |
| • | Kortlægning og alignment, herunder sortering og markering af dubletter |
| • | Detektion af genfusioner |
| • | Kvantificering af transkripter |
| • | [DRAGEN v3.8 eller nyere] Differentiel genekspression |
Hvis der skal genereres outputfiler, skal du angive en GTF-fil i prøvearket eller sørge for, at standardfilen genes.gtf.gz findes med referencegenomet.
Pipelinen genererer følgende outputfiler.
|
Komponent |
Type |
Outputfilens navn |
Beskrivelse |
||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
Kortlægning/alignment |
BAM eller CRAM |
|
Tilpasningsoutput, der opfylder SAM-specifikationerne. |
||||||||||||
|
Detektion af genfusioner |
Almindelig tekst |
|
|
||||||||||||
|
Kvantificering af transkripter |
Almindelig tekst |
|
|
||||||||||||
|
Differentieret ekspression |
PNG |
Se følgende tabel over outputfiler for differentieret ekspression. |
For at generere outputfiler skal der konfigureres en sammenligning i prøvearket. |
Der bliver genereret følgende filer, når differentieret ekspression er aktiveret.
|
Filnavn |
Beskrivelse |
|---|---|
|
Control_vs_Comparison.differential_expression_metrics.csv |
Indeholder analysemålinger for differentieret ekspression. |
|
Control_vs_Comparison.genes.counts.csv |
Beskriver antallet af aflæsninger, der er knyttet til hvert gen for hver prøve i kontrol- og sammenligningsgrupperne. |
|
Control_vs_Comparison.genes.heatmap.png |
Et varmekort over ekspressionen af de differentielt udtrykte gener for prøver i kontrol- og sammenligningsgrupper. Varmekortet viser kun de differentielt udtrykte gener med en justeret P-værdi < -0,05. Hvis der er mere end 30 differentielt udtrykte gener, er det kun de 30 højest rangerende, der bliver anvendt. Hvis DESeq1-konvergeringen mislykkes, eller hvis der ikke er nogen differentielt udtrykte gener, bliver filen ikke genereret. |
|
Control_vs_Comparison.genes.ma.png |
Indeholder variationen af genekspressionsratioer som en funktion af gennemsnitlig signalintensitet. Diagrammet viser forskellene mellem målinger taget i to prøver ved at omdanne dataene til M- (logforhold) og A- (gennemsnits)-skalaer og derefter plotte disse værdier. MA-diagrammet viser de log2 fold-ændringer, der kan tilskrives en given variabel over gennemsnittet af normaliserede tællinger for alle prøverne. Hvis den justerede p-værdi er under 0,1, er punkterne røde. Punkter, der falder uden for vinduet, indtegnes som åbne trekanter. Opad pegende trekanter repræsenterer en positiv log-foldændring. Nedad pegende trekanter repræsenterer en negativ log-foldændring. |
|
Control_vs_Comparison.genes.pca.png |
Diagrammet viser de første to hovedkomponenter, der forklarer den meste varians. |
|
Control_vs_Comparison.genes.res.csv |
Indeholder DESeq2-resultater, som beskriver den gennemsnitlige ekspression, log2 (foldændring), standardfejl af log2, p-værdi, justeret p-værdi og ekspressionsstatus for hvert gen. |
|
Control_vs_Comparison.genes.rlog.csv |
Indeholder normaliserede log-transformerede tællinger, der er beregnet af DESeq2. |
DRAGEN understøtter følgende funktioner:
| • | Demultipleksering af prøver |
| • | Kortlægning og alignment, herunder sortering og markering af dubletter |
| • | Celle- og genklassificering |
Hvis der skal genereres outputfiler, skal du angive en GTF-fil i prøvearket eller sørge for, at standardfilen genes.gtf.gz findes med referencegenomet.
Pipelinen genererer følgende outputfiler.
|
Komponent |
Type |
Outputfilens navn |
|||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
|
Kortlægning/alignment |
BAM eller CRAM |
|
|||||||||
|
Celle-/genklassificering |
TSV, CSV og MTX |
|
|||||||||
|
Analyserapporter |
HTML |
<sample_name>.dragen.scrna-report.*.html |
DRAGEN BCL Convert-pipelinen genererer en FASTQ-outputfil for hver prøve på baggrund af de BCL-data, der bliver genereret i forbindelse med sekventeringskørslen, og oplysningerne på prøvearket. FASTQ-filens navn er <sample_name>.fastq.gz.
Pipelinen genererer følgende rapporter.
|
Komponent |
Type |
Outputfilens navn |
|||
|---|---|---|---|---|---|
|
Demultipleksering |
CSV |
|
|||
|
Adaptermålinger |
CSV |
|
|||
|
Ukorrekt indekstildeling |
CSV |
|
|||
|
Rangliste over ukendte stregkoder |
CSV |
|
Rapporten om demultiplekseringsstatistik indeholder oplysninger om antallet aflæsninger, der passerede filteret, for hver prøve i henhold til prøvearket. Aflæsninger uden tydelig forbindelse med en prøve bliver klassificeret som uafklarede. Rapporten indeholder også oplysninger om kvalitetsscoren for baser i læsninger, der passerede filtret (PF), for hver prøve.
Følgende oplysninger er inkluderet.
|
Måling |
Beskrivelse |
|---|---|
|
Lane |
Den bane på flowcellen, hvor prøven blev sekventeret. |
|
SampleID |
Prøve-id’et fra prøvearket. Hvis en aflæsning ikke stemmer overens med en prøve, står der undetermined (uafklaret) i feltet. |
|
Indeks |
Sammenkædning af Index Read 1 (Indeks-læsning 1) og Index Read 2 (Indeks-læsning 2) fra prøvearket, separeret med en bindestreg. Hvis en læsning ikke stemmer overens med en prøve, står der undetermined (uafklaret) i feltet. |
|
# Reads |
Antallet af PF-læsninger, der blev demultiplekseret for prøven i den angivne bane. |
|
# Perfect Index Reads |
Antallet af læsninger med perfekt overensstemmelse med de kombinerede indekssekvenser, der er angivet i prøvearket. |
|
# One Mismatch Index Reads |
Antallet af læsninger med én fejl i de kombinerede indekssekvenser, der er angivet i prøvearket. |
|
# of ≥ Q30 Bases (PF) |
Antallet af baser, herunder adaptere, der stemmer overens med læsninger, der passerer en kvalitetstærskel på Q30. |
|
Mean Quality Score (PF) |
Den gennemsnitlige kvalitetsscore for læsninger, der stemmer overens med prøven i den angivne bane. Værdien inkluderer adapterbaser. |
Adaptermålingsfilen indeholder antallet af adapter- og prøvebaser, der er forbundet med hver læsning.
Følgende oplysninger er inkluderet.
|
Måling |
Beskrivelse |
|---|---|
|
Lane |
Den bane på flowcellen, hvor prøven blev sekventeret. |
|
Sample_ID |
Prøve-id’et fra prøvearket. Hvis en aflæsning ikke stemmer overens med en prøve, står der undetermined (uafklaret) i feltet. |
|
Indeks |
Indeks 1-sekvensen fra prøvearket. Feltet er tomt, hvis indekset ikke blev angivet i prøvearket, eller hvis prøve-id-værdien er undetermined (uafklaret). |
|
index2 |
Indeks 2-sekvensen fra prøvearket. Feltet er tomt, hvis Indeks 2 ikke blev angivet i prøvearket, eller hvis prøve-id-værdien er undetermined (uafklaret). |
|
R1_AdapterBases |
Antallet af baser i overensstemmelse med AdapterRead 1 (AdapterLæsning 1) i prøvearket. |
|
R1_SampleBases |
Antallet af trimmede eller maskerede baser fra Read 1 (Læsning 1) for den tilsvarende bane og prøve. |
|
R2_AdapterBases |
Antallet af baser i overensstemmelse med AdapterRead 2 (AdapterLæsning 2) i prøvearket. |
|
R2_SampleBases |
Antallet af trimmede eller maskerede baser fra Read 2 (Læsning 2) for den tilsvarende bane og prøve. |
|
# Reads |
Antallet af læsninger for prøven i den angivne bane. |
Rapporten om antallet af ukorrekte indekstildelinger indeholder antallet af læsninger for hvert forventet og ukorrekt tildelt indeks for kørsler med dobbelt indeksering. Rapporten inkluderer kun unikke dobbeltindekser pr. bane, hvor der ikke bliver fundet sammenfaldende stregkoder. For at generere målinger af ukorrekte indekstildelinger for en bane skal hvert element-par inden for hvert indeks have en hamming-afstand på mindst 2N +1, hvor N er den angivne tolerance for stregkodeuoverensstemmelse for indekset.
Følgende oplysninger er inkluderet.
For kørsler uden indeks, kørsler med enkelt indeks eller baner, der ikke indeholder unikke dobbeltindekser, indeholder filen kun overskrifterne.
|
Måling |
Beskrivelse |
|---|---|
|
Lane |
Den bane på flowcellen, hvor prøven blev sekventeret. |
|
# Reads |
Antallet af læsninger for prøven i den angivne bane. |
|
SampleID |
Prøve-id’et fra prøvearket. Hvis en aflæsning ikke stemmer overens med en prøve, står der undetermined (uafklaret) i feltet. |
|
Indeks |
Indeks 1-sekvensen fra prøvearket. Feltet er tomt, hvis det er en enkeltstående læsning, eller hvis prøve-id-værdien er undetermined (uafklaret). |
|
index2 |
Indeks 2-sekvensen fra prøvearket. Feltet er tomt, hvis det er en enkeltstående læsning, eller hvis prøve-id-værdien er undetermined (uafklaret). |
Rapporten med ranglisten over ukendte stregkoder indeholder en top-100 over indekser eller indekspar pr. bane, som ikke blev identificeret i prøvearket i henhold til antallet af tilladte uoverensstemmelser. Hvis der er flere indeksværdier, der bliver rangeret på plads nummer 100, bliver de alle rapporteret på post nr. 100.
Følgende oplysninger er inkluderet:
|
Måling |
Beskrivelse |
|---|---|
|
Lane |
Den bane på flowcellen, hvor prøven blev sekventeret. |
|
Indeks |
Sekvensen for hvert ukendt indeks i Indeks-læsning 1. Feltet er tomt, hvis der ikke bliver fundet nogen ukendte indekser. |
|
index2 |
Sekvensen for hvert ukendt indeks i IndexRead 2 (Indeks-læsning 2). Hvis kørslen var enkeltlæst, eller der ikke blev fundet nogen ukendte indekser, er feltet tomt. |
|
# Reads |
Antallet af læsninger for prøven i den angivne bane. |
DRAGEN FastQC genererer som standard QC-diagrammer for alle pipelines. Aggregerede QC-resultater gemmes i mappen AggregatedFastqcMetrics, og resultaterne pr. prøve gemmes i mappen <sample_name>.
Hvis antallet af prøver er højere end 512, bliver der ikke genereret
Der bliver genereret følgende QC-diagrammer.
|
QC-diagram |
Beskrivelse |
|---|---|
|
adapter_content |
Procentdelen af sekvenser for hvert basepar. |
|
positional_mean_quality |
Gennemsnitlig basekvalitetsscore for hver læsningsposition på Phred-skala. |
|
gc_content |
GC-indhold i procent for hver sekventeringslæsning. |
|
positional_quality.read_1 |
Gennemsnitlig kvalitetsværdi på Phred-skala for baser med et specifikt nukleotid og på en given placering i Read 1 (Læsning 1). |
|
gc_quality |
|
|
positional_quality.read_2 |
Gennemsnitlig kvalitetsværdi på Phred-skala for baser med et specifikt nukleotid og på en given placering i Read 2 (Læsning 2). |
|
n_content |
|
|
read_length |
Sekventeringslængden for hver læsning. |
|
positional_base_content.read_1 |
Antallet af baser for hvert specifikt nukleotid på givne placeringer i Read 1 (Læsning 1). |
|
read_quality |
Gennemsnitlig kvalitetsscore på Phred-skala for hver sekventeringslæsning. |
|
positional_base_content.read_2 |
Antallet af baser for hvert specifikke nukleotid på givne placeringer i Read 2 (Læsning 2). |
