Outputfiler til den sekundære DRAGEN-analyse

Dette afsnit indeholder oplysninger om de enkelte DRAGEN-pipelines, herunder oplysninger om outputfiler. Udover at generere filer, der er specifikke for hver pipeline, frembringer DRAGEN målinger fra analysen i en <sample_name>.metrics.json-fil og de rapporter, der er beskrevet i DRAGEN BCL Convert-pipeline. For yderligere oplysninger om DRAGEN, henvises der til siden om DRAGEN Bio-IT Platform på supporthjemmesiden.

Alle DRAGEN-pipelines understøtter dekomprimering af BCL-inputfiler og komprimering af BAM/CRAM-outputfiler.

Alle DRAGEN-pipelines understøtter også generering af FASTQ.ora-filer med DRAGEN Original Read Archive (ORA)-komprimering. ORA-komprimering reducerer størrelsen på FASTQ-filer op til 5x. For yderligere oplysninger, henvises der til Illuminas supporthjemmeside.

Overvejelser vedrørende outputfiler:

•

For Germline-, RNA-, Enrichment- og DNA Amplicon-pipelines, der kører analyse på instrumentet, bliver der ikke overført BAM-filer til BaseSpace Sequence Hub, hvis der er valgt Proactive, Run Monitoring and Storage (Proactive, kørselsmonitorering og lagring).

DRAGEN Enrichment-pipeline

DRAGEN Enrichment-pipelinen understøtter følgende funktioner. Hvis DRAGEN 3.7 eller nyere anvendes, understøttes både kimcelletilstand og somatisk tilstand (kun tumor).

•

Demultipleksering af prøver

•

Kortlægning og alignment, herunder sortering og markering af dubletter

•

Bestemmelse af små varianter

•

Bestemmelse af strukturelle varianter

•

Kopiér nummervariantbestemmelse (version 3.10 eller senere)

For at udføre variationsbestemmelse skal der inkluderes en *.bed-fil i prøvearket, eller angives en *.bed-fil under Kørselsplanlægning på BaseSpace Sequence Hub. Der bliver kun genereret bestemmelse af strukturelle variationer for parvise læsninger og kimcelletilstand.

Ved brug af DRAGEN Enrichment version 3.8 eller nyere kan du indlæse en baselinefil for støj for at forbedre ydeevnen i somatisk tilstand. Se Import af baselinefiler for støj.

Hvis der anvendes bestemmelse med kopinummervariant (CNV), skal der angives et panel af normaler. Se Importpanel for normaler for CNV-bestemmelse.

Pipelinen genererer følgende outputfiler.

Komponent

Type

Outputfilens navn

Kortlægning/alignment

BAM eller CRAM

•

<sample_name>.bam, eller

•

<sample_name>.cram

Bestemmelse af små varianter

VCF og gVCF*

•

<sample_name>.hard-filtered.gvcf.gz

•

<sample_name>.hard-filtered.vcf.gz

Bestemmelse af strukturelle varianter

VCF

•

<sample_name>.sv.vcf.gz

Bestemmelse af kopinummervariant

VCF

•

<sample_name>.cnv.vcf.gz

* gVCF-outputfiler er kun tilgængelige for kimcellelinje-tilstand.

DRAGEN Germline-pipeline

DRAGEN Germline-pipelinen understøtter følgende funktioner:

•

Demultipleksering af prøver

•

Kortlægning og alignment, herunder sortering og markering af dubletter

•

Bestemmelse af små varianter

•

Bestemmelse af strukturelle variationer for parvise læsninger

•

Bestemmelse af variationer i kopiantal for humane genomer

•

Repeat-ekspansioner for humane genomer

•

Homozygositetsområder for humane genomer

•

[DRAGEN v3.8 eller nyere] CYP2D6-detektion

Der bliver kun genereret bestemmelse af strukturelle variationer for parvise læsninger.

Pipelinen genererer følgende outputfiler.

Komponent

Type

Outputfilens navn

Kortlægning/alignment

BAM eller CRAM

•

<sample_name>.bam, eller

•

<sample_name>.cram

Bestemmelse af små varianter

VCF og gVCF

•

<sample_name>.hard-filtered.gvcf.gz

•

<sample_name>.hard-filtered.vcf.gz

Variantbestemmelsesprogram for strukturelle varianter

VCF

•

<sample_name>.sv.vcf.gz

Kopinummer af variantbestemmelse

VCF

•

<sample_name>.cnv.vcf.gz

Repeat-ekspansion

VCF

•

<sample_name>.repeats.vcf.gz

Homozygositetsområder

CSV og BED

•

<sample_name>.roh_metrics.csv

•

<sample_name>.roh.bed

CYP2D6-detektion

TSV

•

<sample_name>.cyp2d6.tsv

DRAGEN DNA Amplicon-pipeline

DRAGEN-pipelinen understøtter følgende funktioner:

•

Demultipleksering af prøver

•

Kortlægning og alignment, herunder sortering og markering af dubletter

•

Bestemmelse af små variationer i kimcelletilstand eller somatisk tilstand.

For at udføre variationsbestemmelse skal der inkluderes en *.bed-fil i prøvearket, eller angives en *.bed-fil under Kørselsplanlægning på BaseSpace Sequence Hub.

Pipelinen genererer følgende outputfiler.

Komponent

Type

Outputfilens navn

Kortlægning/alignment

BAM eller CRAM

•

<sample_name>.bam, eller

•

<sample_name>.cram

Bestemmelse af små varianter

VCF og gVCF*

•

<sample_name>.hard-filtered.gvcf.gz

•

<sample_name>.hard-filtered.vcf.gz

* gVCF-outputfiler er kun tilgængelige i kimcelletilstand.

DRAGEN RNA-pipeline

DRAGEN RNA-pipelinen understøtter følgende funktioner

•

Demultipleksering af prøver

•

Kortlægning og alignment, herunder sortering og markering af dubletter

•

Detektion af genfusioner

•

Kvantificering af transkripter

•

[DRAGEN v3.8 eller nyere] Differentiel genekspression

Hvis der skal genereres outputfiler, skal du angive en GTF-fil i prøvearket eller sørge for, at standardfilen genes.gtf.gz findes med referencegenomet.

Pipelinen genererer følgende outputfiler.

Komponent

Type

Outputfilens navn

Beskrivelse

Kortlægning/alignment

BAM eller CRAM

•

<sample_name>.bam, eller

•

<sample_name>.cram

Tilpasningsoutput, der opfylder SAM-specifikationerne.

Detektion af genfusioner

Almindelig tekst

•

<sample_name>.fusion_candidates.preliminary

•

<sample_name>.fusion_candidates.final

•

Fusionskandidater før anvendelse af filtre.

•

Fusionskandidater efter anvendelse af filtre.

Kvantificering af transkripter

Almindelig tekst

•

prøvenavn.quant.genes.sf

•

prøvenavn.quant.sf

•

Resultater af kvantificering af transkripter på genniveau.

•

Alle resultater af kvantificering af transkripter.

Differentieret ekspression

PNG

Se følgende tabel over outputfiler for differentieret ekspression.

For at generere outputfiler skal der konfigureres en sammenligning i prøvearket.

Der bliver genereret følgende filer, når differentieret ekspression er aktiveret.

Filnavn	Beskrivelse
Control_vs_Comparison.differential_expression_metrics.csv	Indeholder analysemålinger for differentieret ekspression.
Control_vs_Comparison.genes.counts.csv	Beskriver antallet af aflæsninger, der er knyttet til hvert gen for hver prøve i kontrol- og sammenligningsgrupperne.
Control_vs_Comparison.genes.heatmap.png	Et varmekort over ekspressionen af de differentielt udtrykte gener for prøver i kontrol- og sammenligningsgrupper. Varmekortet viser kun de differentielt udtrykte gener med en justeret P-værdi < -0,05. Hvis der er mere end 30 differentielt udtrykte gener, er det kun de 30 højest rangerende, der bliver anvendt. Hvis DESeq1-konvergeringen mislykkes, eller hvis der ikke er nogen differentielt udtrykte gener, bliver filen ikke genereret.
Control_vs_Comparison.genes.ma.png	Indeholder variationen af genekspressionsratioer som en funktion af gennemsnitlig signalintensitet. Diagrammet viser forskellene mellem målinger taget i to prøver ved at omdanne dataene til M- (logforhold) og A- (gennemsnits)-skalaer og derefter plotte disse værdier. MA-diagrammet viser de log2 fold-ændringer, der kan tilskrives en given variabel over gennemsnittet af normaliserede tællinger for alle prøverne. Hvis den justerede p-værdi er under 0,1, er punkterne røde. Punkter, der falder uden for vinduet, indtegnes som åbne trekanter. Opad pegende trekanter repræsenterer en positiv log-foldændring. Nedad pegende trekanter repræsenterer en negativ log-foldændring.
Control_vs_Comparison.genes.pca.png	Diagrammet viser de første to hovedkomponenter, der forklarer den meste varians.
Control_vs_Comparison.genes.res.csv	Indeholder DESeq2-resultater, som beskriver den gennemsnitlige ekspression, log2 (foldændring), standardfejl af log2, p-værdi, justeret p-værdi og ekspressionsstatus for hvert gen.
Control_vs_Comparison.genes.rlog.csv	Indeholder normaliserede log-transformerede tællinger, der er beregnet af DESeq2.

DRAGEN Single Cell RNA-pipeline

DRAGEN understøtter følgende funktioner:

•

Demultipleksering af prøver

•

Kortlægning og alignment, herunder sortering og markering af dubletter

•

Celle- og genklassificering

Hvis der skal genereres outputfiler, skal du angive en GTF-fil i prøvearket eller sørge for, at standardfilen genes.gtf.gz findes med referencegenomet.

Pipelinen genererer følgende outputfiler.

Komponent

Type

Outputfilens navn

Kortlægning/alignment

BAM eller CRAM

•

<sample_name>.bam, eller

•

<sample_name>.cram

Celle-/genklassificering

TSV, CSV og MTX

•

<sample_name>.scRNA.barcodeSummary.tsv

•

<sample_name>.scRNA.genes.tsv

•

<sample_name>.scRNA.matrix.mtx

Analyserapporter

HTML

<sample_name>.dragen.scrna-report.*.html

DRAGEN BCL Convert-pipeline

DRAGEN BCL Convert-pipelinen genererer en FASTQ-outputfil for hver prøve på baggrund af de BCL-data, der bliver genereret i forbindelse med sekventeringskørslen, og oplysningerne på prøvearket. FASTQ-filens navn er <sample_name>.fastq.gz.

Pipelinen genererer følgende rapporter.

Komponent

Type

Outputfilens navn

Demultipleksering

CSV

•

Demultiplex_Stats.csv

Adaptermålinger

CSV

•

Adapter_Metrics.csv

Ukorrekt indekstildeling

CSV

•

Index_Hopping_Counts.csv

Rangliste over ukendte stregkoder

CSV

•

Top_Unknown_Barcodes.csv

Rapport om demultiplekseringsstatistik

Rapporten om demultiplekseringsstatistik indeholder oplysninger om antallet aflæsninger, der passerede filteret, for hver prøve i henhold til prøvearket. Aflæsninger uden tydelig forbindelse med en prøve bliver klassificeret som uafklarede. Rapporten indeholder også oplysninger om kvalitetsscoren for baser i læsninger, der passerede filtret (PF), for hver prøve.

Følgende oplysninger er inkluderet.

Måling	Beskrivelse
Lane	Den bane på flowcellen, hvor prøven blev sekventeret.
SampleID	Prøve-id’et fra prøvearket. Hvis en aflæsning ikke stemmer overens med en prøve, står der undetermined (uafklaret) i feltet.
Indeks	Sammenkædning af Index Read 1 (Indeks-læsning 1) og Index Read 2 (Indeks-læsning 2) fra prøvearket, separeret med en bindestreg. Hvis en læsning ikke stemmer overens med en prøve, står der undetermined (uafklaret) i feltet.
# Reads	Antallet af PF-læsninger, der blev demultiplekseret for prøven i den angivne bane.
# Perfect Index Reads	Antallet af læsninger med perfekt overensstemmelse med de kombinerede indekssekvenser, der er angivet i prøvearket.
# One Mismatch Index Reads	Antallet af læsninger med én fejl i de kombinerede indekssekvenser, der er angivet i prøvearket.
# of ≥ Q30 Bases (PF)	Antallet af baser, herunder adaptere, der stemmer overens med læsninger, der passerer en kvalitetstærskel på Q30.
Mean Quality Score (PF)	Den gennemsnitlige kvalitetsscore for læsninger, der stemmer overens med prøven i den angivne bane. Værdien inkluderer adapterbaser.

Rapporter om adaptermålinger

Adaptermålingsfilen indeholder antallet af adapter- og prøvebaser, der er forbundet med hver læsning.

Følgende oplysninger er inkluderet.

Måling	Beskrivelse
Lane	Den bane på flowcellen, hvor prøven blev sekventeret.
Sample_ID	Prøve-id’et fra prøvearket. Hvis en aflæsning ikke stemmer overens med en prøve, står der undetermined (uafklaret) i feltet.
Indeks	Indeks 1-sekvensen fra prøvearket. Feltet er tomt, hvis indekset ikke blev angivet i prøvearket, eller hvis prøve-id-værdien er undetermined (uafklaret).
index2	Indeks 2-sekvensen fra prøvearket. Feltet er tomt, hvis Indeks 2 ikke blev angivet i prøvearket, eller hvis prøve-id-værdien er undetermined (uafklaret).
R1_AdapterBases	Antallet af baser i overensstemmelse med AdapterRead 1 (AdapterLæsning 1) i prøvearket.
R1_SampleBases	Antallet af trimmede eller maskerede baser fra Read 1 (Læsning 1) for den tilsvarende bane og prøve.
R2_AdapterBases	Antallet af baser i overensstemmelse med AdapterRead 2 (AdapterLæsning 2) i prøvearket.
R2_SampleBases	Antallet af trimmede eller maskerede baser fra Read 2 (Læsning 2) for den tilsvarende bane og prøve.
# Reads	Antallet af læsninger for prøven i den angivne bane.

Rapport om antallet af ukorrekte indekstildelinger

Rapporten om antallet af ukorrekte indekstildelinger indeholder antallet af læsninger for hvert forventet og ukorrekt tildelt indeks for kørsler med dobbelt indeksering. Rapporten inkluderer kun unikke dobbeltindekser pr. bane, hvor der ikke bliver fundet sammenfaldende stregkoder. For at generere målinger af ukorrekte indekstildelinger for en bane skal hvert element-par inden for hvert indeks have en hamming-afstand på mindst 2N +1, hvor N er den angivne tolerance for stregkodeuoverensstemmelse for indekset.

Følgende oplysninger er inkluderet.

For kørsler uden indeks, kørsler med enkelt indeks eller baner, der ikke indeholder unikke dobbeltindekser, indeholder filen kun overskrifterne.

Måling	Beskrivelse
Lane	Den bane på flowcellen, hvor prøven blev sekventeret.
# Reads	Antallet af læsninger for prøven i den angivne bane.
SampleID	Prøve-id’et fra prøvearket. Hvis en aflæsning ikke stemmer overens med en prøve, står der undetermined (uafklaret) i feltet.
Indeks	Indeks 1-sekvensen fra prøvearket. Feltet er tomt, hvis det er en enkeltstående læsning, eller hvis prøve-id-værdien er undetermined (uafklaret).
index2	Indeks 2-sekvensen fra prøvearket. Feltet er tomt, hvis det er en enkeltstående læsning, eller hvis prøve-id-værdien er undetermined (uafklaret).

Rapport med rangliste over ukendte stregkoder

Rapporten med ranglisten over ukendte stregkoder indeholder en top-100 over indekser eller indekspar pr. bane, som ikke blev identificeret i prøvearket i henhold til antallet af tilladte uoverensstemmelser. Hvis der er flere indeksværdier, der bliver rangeret på plads nummer 100, bliver de alle rapporteret på post nr. 100.

Følgende oplysninger er inkluderet:

Måling	Beskrivelse
Lane	Den bane på flowcellen, hvor prøven blev sekventeret.
Indeks	Sekvensen for hvert ukendt indeks i Indeks-læsning 1. Feltet er tomt, hvis der ikke bliver fundet nogen ukendte indekser.
index2	Sekvensen for hvert ukendt indeks i IndexRead 2 (Indeks-læsning 2). Hvis kørslen var enkeltlæst, eller der ikke blev fundet nogen ukendte indekser, er feltet tomt.
# Reads	Antallet af læsninger for prøven i den angivne bane.

Illumina DRAGEN QC-rapporter

DRAGEN FastQC genererer som standard QC-diagrammer for alle pipelines. Aggregerede QC-resultater gemmes i mappen AggregatedFastqcMetrics, og resultaterne pr. prøve gemmes i mappen <sample_name>.

Hvis antallet af prøver er højere end 512, bliver der ikke genereret QC-rapporter.

Der bliver genereret følgende QC-diagrammer.

QC-diagram	Beskrivelse
adapter_content	Procentdelen af sekvenser for hvert basepar.
positional_mean_quality	Gennemsnitlig basekvalitetsscore for hver læsningsposition på Phred-skala.
gc_content	GC-indhold i procent for hver sekventeringslæsning.
positional_quality.read_1	Gennemsnitlig kvalitetsværdi på Phred-skala for baser med et specifikt nukleotid og på en given placering i Read 1 (Læsning 1).
gc_quality
positional_quality.read_2	Gennemsnitlig kvalitetsværdi på Phred-skala for baser med et specifikt nukleotid og på en given placering i Read 2 (Læsning 2).
n_content
read_length	Sekventeringslængden for hver læsning.
positional_base_content.read_1	Antallet af baser for hvert specifikt nukleotid på givne placeringer i Read 1 (Læsning 1).
read_quality	Gennemsnitlig kvalitetsscore på Phred-skala for hver sekventeringslæsning.
positional_base_content.read_2	Antallet af baser for hvert specifikke nukleotid på givne placeringer i Read 2 (Læsning 2).