DRAGEN 二次分析输出文件
本节提供了有关每个 DRAGEN 管道的信息,包括输出文件信息。除了生成特定于每个管道的文件之外,DRAGEN 还提供来自 <sample_name>.metrics.json 文件中的分析的指标以及 DRAGEN BCL Convert 管道中描述的报告。有关 DRAGEN 的详细信息,请参阅 DRAGEN Bio-IT Platform 支持网站页面。
所有 DRAGEN 管道都支持解压缩输入 BCL 文件和压缩输出 BAM/CRAM 文件。
所有 DRAGEN 管道还支持使用 DRAGEN 原始读取存档 (ORA) 压缩生成 FASTQ.ora 文件。ORA 压缩将 FASTQ 文件的大小减少了 5 倍。有关更多信息,请参阅 Illumina 支持网站。
输出文件注意事项:
• | 对于运行仪器内分析的 Germline、RNA、Enrichment 和 DNA Amplicon 管道,如果选择了“Proactive, Run Monitoring and Storage(Proactive、运行监控和存储)”,BAM 文件将不会上载到 BaseSpace Sequence Hub。 |

DRAGEN Enrichment 管道支持以下功能。如果使用的是 DRAGEN 3.7 或更高版本,生殖细胞和体细胞(仅限肿瘤)两种模式都受支持。
• | 样本文库拆分 |
• | 映射和比对,包括排序和重复标记 |
• | 小型变异检出 |
• | 结构变异检出 |
• | 拷贝数变异检出(版本 3.10 或更高版本) |
要执行变异检出,样品表中必须包含 *.bed 文件,或者必须在 BaseSpace Sequence Hub 的运行计划中指定 *.bed 文件。只有双末端片段和胚系模式会生成结构变异检出。
如果使用的是 DRAGEN Enrichment 3.8 或更高版本,则可以输入噪声基线文件,以提高体细胞模式下的性能。请参阅 Import Noise Baseline Files(噪声基线文件)。
如果使用拷贝数变异 (CNV) 检出,则必须提供一组正常样本库。请参阅导入正常样本库进行 CNV 检出。
该管道会生成下列输出文件。
组件 |
类型 |
输出文件名 |
||||||
---|---|---|---|---|---|---|---|---|
映射/比对 |
BAM 或 CRAM |
|
||||||
小型变异检出 |
VCF 和 gVCF* |
|
||||||
结构变异检出 |
VCF |
|
||||||
拷贝数变异检出 |
VCF |
|
* gVCF 输出文件仅适用于生殖细胞模式。

DRAGEN Germline 管道支持以下功能:
• | 样本文库拆分 |
• | 映射和比对,包括排序和重复标记 |
• | 小型变异检出 |
• | 双末端片段的结构变异检出 |
• | 人类基因组的拷贝数变异检出 |
• | 人类基因组的重复扩张 |
• | 人类基因组的纯合区域 |
• | [DRAGEN v3.8 或更高版本] CYP2D6 检测 |
只有双末端片段会生成结构变异检出。
该管道会生成下列输出文件。
组件 |
类型 |
输出文件名 |
||||||
---|---|---|---|---|---|---|---|---|
映射/比对 |
BAM 或 CRAM |
|
||||||
小型变异检出 |
VCF 和 gVCF |
|
||||||
结构变异检出器 |
VCF |
|
||||||
拷贝数变异检出器 |
VCF |
|
||||||
重复扩增 |
VCF |
|
||||||
纯合区域 |
CSV 和 BED |
|
||||||
CYP2D6 检测 |
TSV |
|

DRAGEN 管道支持以下功能:
• | 样本文库拆分 |
• | 映射和比对,包括排序和重复标记 |
• | 胚系变异或体细胞变异模式下的小型变异检出 |
要执行变异检出,样品表中必须包含 *.bed 文件,或者必须在 BaseSpace Sequence Hub 的运行计划中指定 *.bed 文件。
该管道会生成下列输出文件。
组件 |
类型 |
输出文件名 |
||||||
---|---|---|---|---|---|---|---|---|
映射/比对 |
BAM 或 CRAM |
|
||||||
小型变异检出 |
VCF 和 gVCF* |
|
*gVCF 输出文件仅在胚系变异模式下可用。

DRAGEN RNA 管道支持以下功能
• | 样本文库拆分 |
• | 映射和比对,包括排序和重复标记 |
• | 基因融合检测 |
• | 转录本定量 |
• | [DRAGEN v3.8 或更高版本] 差异基因表达 |
要生成输出文件,请在样品表中指定 GTF 文件,或确保默认的 genes.gtf.gz 存在参考基因组。
该管道会生成下列输出文件。
组件 |
类型 |
输出文件名 |
描述 |
||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
映射/比对 |
BAM 或 CRAM |
|
符合 SAM 规格的比对输出。 |
||||||||||||
基因融合检测 |
纯文本 |
|
|
||||||||||||
转录本定量 |
纯文本 |
|
|
||||||||||||
差异表达 |
PNG |
请参阅以下差异表达输出文件表。 |
要生成输出文件,必须在样本表中设置比较品。 |
文件名 |
描述 |
---|---|
Control_vs_Comparison.differential_expression_metrics.csv |
包含差异表达分析指标。 |
Control_vs_Comparison.genes.counts.csv |
描述对照组和比较组中每个样本的每个基因对应的读段数量。 |
Control_vs_Comparison.genes.heatmap.png |
对照组和比较组样品中差异表达基因的热图。热图仅显示了经调整的 P 值 < -0.05 的差异表达基因。如果表达有差异的基因数超过 30 个,则仅使用前 30 个表达有差异的基因。如果 DESeq1 未能汇集或者没有表达有差异的基因,则不会生成该文件。 |
Control_vs_Comparison.genes.ma.png |
包含作为平均信号强度因素的基因表达率的变化。为显示两个样本测量值之间的差异,该图将数据转换为 M(对数比)和 A(平均平均值)标度,然后绘制数值图。MA 图显示了在所有样本的归一化计数平均值上,给定变量引起的 log2 倍数变化。如果调整后的 P-value 小于 0.1,则点为红色。窗口外的点绘制为开口三角形。正三角形表示正对数差异倍数。倒三角形表示负对数差异倍数。 |
Control_vs_Comparison.genes.pca.png |
该图显示说明最大变化的前两个主要部分。 |
Control_vs_Comparison.genes.res.csv |
包含 DESeq2 结果,描述了每个基因的平均表达、log2(差异倍数)、log2 的标准误差、P-value、调整后的 P-value 和表达状态。 |
Control_vs_Comparison.genes.rlog.csv |
包含 DESeq2 计算出的正则化对数转换计数。 |

DRAGEN 支持以下功能:
• | 样本文库拆分 |
• | 映射和比对,包括排序和重复标记 |
• | 细胞和基因分类 |
要生成输出文件,请在样品表中指定 GTF 文件,或确保默认的 genes.gtf.gz 存在参考基因组。
该管道会生成下列输出文件。
组件 |
类型 |
输出文件名 |
|||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
映射/比对 |
BAM 或 CRAM |
|
|||||||||
细胞/基因分类 |
TSV、CSV 和 MTX |
|
|||||||||
分析报告 |
HTML |
<sample_name>.dragen.scrna-report.*.html |

DRAGEN BCL Convert 管道使用测序运行生成的 BCL 数据和样品表信息来输出每个样品的 FASTQ 文件。FASTQ 文件名为 <sample_name>.fastq.gz。
该管道会生成下列报告。
组件 |
类型 |
输出文件名 |
|||
---|---|---|---|---|---|
文库拆分 |
CSV |
|
|||
接头指标 |
CSV |
|
|||
标签跳跃 |
CSV |
|
|||
高计数未知条形码 |
CSV |
|

文库拆分统计报告包含有关被分配给样本表中每个样本的通过过滤读段的数量信息。未明确与某个样本关联的所有读段都被划分到未确定类别。针对分配给每个样品的通过过滤 (PF) 的片段,报告中还包含有关片段内碱基的质量分值信息。
包含的信息如下。
指标 |
描述 |
---|---|
泳道 |
进行样品测序的流动槽泳道。 |
样品 ID |
取自样品表的样品 ID。如果读段未对应于某个样本,该字段会显示为 undetermined(未确定)。 |
标签 |
样品表中标签片段 1 和标签片段 2 的串联,以连字符分隔。如果读段未对应于某个样本,该字段会显示为 undetermined(未确定)。 |
片段数量 |
指定泳道中样品的已拆分文库的 PF 片段数量。 |
# Perfect Index Reads(完全匹配的标签片段数) |
与样品表中指定的组合标签序列完全匹配的片段数量。 |
# One Mismatch Index Reads(一处不匹配的标签片段数) |
与样品表中指定的组合标签序列有一处偏差的片段数量。 |
# of ≥ Q30 Bases (PF)(≥ Q30 碱基数 (PF)) |
与通过 Q30 质量阈值的片段对应的碱基数(包括接头)。 |
平均质量分值 (PF) |
与指定泳道中样品对应的片段的平均质量分值。该值包括接头碱基数。 |

接头指标文件包含与每个片段关联的接头数和样品碱基数。
包含的信息如下。
指标 |
描述 |
---|---|
泳道 |
进行样品测序的流动槽泳道。 |
Sample_ID(样品 ID) |
取自样品表的样品 ID。如果读段未对应于某个样本,该字段会显示为 undetermined(未确定)。 |
标签 |
取自样品表的标签 1 序列。如果样本表中未指定该标签或者样本 ID 值为 undetermined(未确定),该字段将为空。 |
index2(标签 2) |
取自样品表的标签 2 序列。如果样本表中未指定标签 2 或者样本 ID 值为 undetermined(未确定),该字段将为空。 |
R1_AdapterBases |
与样品表中的 AdapterRead1 对应的碱基数。 |
R1_SampleBases |
从对应泳道和样品的片段 1 裁剪掉或遮盖住的碱基数。 |
R2_AdapterBases |
与样品表中的 AdapterRead2 对应的碱基数。 |
R2_SampleBases |
从对应泳道和样品的片段 2 裁剪掉或遮盖住的碱基数。 |
# Reads(片段数量) |
指定泳道中的样品的片段数量。 |

标签跳跃计数报告包含双标签运行的每个预期且已跳跃标签的片段数。报告中只纳入了每个泳道的唯一双标签,在这些泳道中,任一标签中都未检测到条形码冲突。要生成泳道的标签跳跃指标,每个标签中的每对条目都须具有至少 2N +1 的汉明距离,其中 N 代表为该标签所指定的条形码不匹配容差。
包含的信息如下。
对于非标签运行、单标签运行或不含唯一双标签的泳道,该文件仅包含标题。
指标 |
描述 |
---|---|
泳道 |
进行样品测序的流动槽泳道。 |
# Reads(片段数量) |
指定泳道中的样品的片段数量。 |
样品 ID |
取自样品表的样品 ID。如果读段未对应于某个样本,该字段会显示为 undetermined(未确定)。 |
标签 |
取自样品表的标签 1 序列。如果读段为单端读段或者样本 ID 值为 undetermined(未确定),该字段将为空。 |
index2(标签 2) |
取自样品表的标签 2 序列。如果读段为单端读段或者样本 ID 值为 undetermined(未确定),该字段将为空。 |

未知条形码排名报告根据允许的不匹配项数按泳道列出样品表中未标识的前 100 个标签或标签对。如果有多个标签值排在标签计数的第 100 名,则计数相同的所有标签值都会输出为第 100 项。
包含的信息如下:
指标 |
描述 |
---|---|
泳道 |
进行样品测序的流动槽泳道。 |
标签 |
标签片段 1 中每个未知标签的序列。如果未发现未知标签,该字段将为空。 |
index2(标签 2) |
标签片段 2 中每个未知标签的序列。如果运行是单次读取或找不到未知索引,则字段为空。 |
# Reads(片段数量) |
指定泳道中的样品的片段数量。 |

对于所有管道,DRAGEN FastQC 默认都会生成质量控制图。累积的质量控制结果存储在 AggregatedFastqcMetrics 文件夹中,每个样品的结果存储在 <sample_name> 文件夹中。
如果样品数量大于 512,则不会生成
提供以下质量控制图。
质量控制图 |
描述 |
---|---|
adapter_content |
每个碱基对的序列的百分比。 |
positional_mean_quality |
每个片段位置的平均 Phred 碱基质量分值。 |
gc_content |
每个测序片段的 GC 含量百分比。 |
positional_quality.read_1 |
包含特定核苷酸且位于片段 1 中给定位置的碱基的平均 Phred 质量值。 |
gc_quality |
|
positional_quality.read_2 |
包含特定核苷酸且位于片段 2 中给定位置的碱基的平均 Phred 质量分值。 |
n_content |
|
read_length |
每个片段的序列长度。 |
positional_base_content.read_1 |
位于片段 1 中给定位置的每个特定核苷酸的碱基数。 |
read_quality |
每个测序片段的平均 Phred 质量分值。 |
positional_base_content.read_2 |
位于片段 2 中给定位置的每个特定核苷酸的碱基数。 |