DRAGEN による二次解析の出力ファイル
このセクションでは、出力ファイルの情報など、DRAGENの各パイプラインについて説明します。DRAGENは、各パイプラインに固有のファイルを生成するだけでなく、解析から得られたメトリクスを<sample_name>.metrics.jsonファイルおよび「DRAGEN BCL Convertパイプライン」に示すレポートで提供します。DRAGENの詳細については、DRAGEN Bio-IT Platformのサポートサイトのページを参照してください。
すべてのDRAGENパイプラインは、入力BCLファイルの解凍と出力BAM/CRAMファイルの圧縮をサポートしています。
また、FASTQ.oraファイルの生成とDRAGEN Original Read Archive(ORA)圧縮も、すべてのDRAGENパイプラインでサポートされています。ORA圧縮を使用すると、FASTQファイルのサイズが最大5分の1に縮小されます。詳細については、イルミナサポートサイトを参照してください。
出力ファイルに関する考慮事項:
• | Germline、RNA、Enrichment、およびDNA Ampliconパイプラインを使用して装置上の解析を実行する場合、[Proactive, Run Monitoring and Storage]を選択していても、BAMファイルはBaseSpace Sequence Hubにアップロードされません。 |

DRAGEN Enrichmentパイプラインは、以下の機能をサポートします。DRAGEN 3.7以降を使用する場合、生殖細胞モードと体細胞(腫瘍のみ)モードの両方がサポートされます。
• | サンプルのデマルチプレックス |
• | マッピングとアライメント(ソートと重複マーキングを含む) |
• | スモールバリアントコール |
• | 構造多型コール |
• | コピー数バリアントコール(バージョン3.10以降) |
バリアントコーリングを実行するには、*.bedファイルをサンプルシートに含めるか、BaseSpace Sequence HubのRun Planningで指定する必要があります。構造多型コールは、ペアエンドリードおよび生殖細胞モードの場合にのみ生成されます。
DRAGEN Enrichmentバージョン3.8以降を使用する場合、ノイズベースラインファイルを入力して体細胞モードでの性能を改善できます。「ノイズベースラインファイルのインポート」を参照してください。
コピー数バリアント(CNV)コールを使用する場合は、パネルオブノーマルズファイルを提供する必要があります。「CNVコーリング用のパネルオブノーマルズファイルのインポート」を参照してください。
このパイプラインは、以下の出力ファイルを生成します。
コンポーネント |
タイプ |
出力ファイル名 |
||||||
---|---|---|---|---|---|---|---|---|
マッピング/アライニング |
BAMまたはCRAM |
|
||||||
スモールバリアントコール |
VCFおよびgVCF* |
|
||||||
構造多型コール |
VCF |
|
||||||
コピー数バリアントコール |
VCF |
|
* gVCF出力ファイルを使用できるのは、生殖細胞モードの場合のみです。

DRAGEN Germlineパイプラインは、以下の機能をサポートします。
• | サンプルのデマルチプレックス |
• | マッピングとアライメント(ソートと重複マーキングを含む) |
• | スモールバリアントコール |
• | ペアエンドリード用構造多型コール |
• | ヒトゲノム用コピー数バリアントコール |
• | ヒトゲノム用リピート伸長 |
• | ヒトゲノム用ホモ接合性領域 |
• | (DRAGEN v3.8以降)CYP2D6の検出 |
構造多型コールは、ペアエンドリードの場合にのみ生成されます。
このパイプラインは、以下の出力ファイルを生成します。
コンポーネント |
タイプ |
出力ファイル名 |
||||||
---|---|---|---|---|---|---|---|---|
マッピング/アライニング |
BAMまたはCRAM |
|
||||||
スモールバリアントコール |
VCFおよびgVCF |
|
||||||
構造多型コーラー |
VCF |
|
||||||
コピー数バリアントコーラー |
VCF |
|
||||||
リピート伸長 |
VCF |
|
||||||
ホモ接合性領域 |
CSVおよびBED |
|
||||||
CYP2D6の検出 |
TSV |
|

DRAGENパイプラインは、以下の機能をサポートします。
• | サンプルのデマルチプレックス |
• | マッピングとアライメント(ソートと重複マーキングを含む) |
• | 生殖細胞モードまたは体細胞モードでのスモールバリアントコール |
バリアントコーリングを実行するには、*.bedファイルをサンプルシートに含めるか、BaseSpace Sequence HubのRun Planningで指定する必要があります。
このパイプラインは、以下の出力ファイルを生成します。
コンポーネント |
タイプ |
出力ファイル名 |
||||||
---|---|---|---|---|---|---|---|---|
マッピング/アライニング |
BAMまたはCRAM |
|
||||||
スモールバリアントコール |
VCFおよびgVCF* |
|
* gVCF出力ファイルを使用できるのは、生殖細胞モードの場合のみです。

DRAGEN RNAパイプラインは、以下の機能をサポートします。
• | サンプルのデマルチプレックス |
• | マッピングとアライメント(ソートと重複マーキングを含む) |
• | 遺伝子融合検出 |
• | 転写因子の定量 |
• | (DRAGEN v3.8以降)遺伝子発現差解析 |
出力ファイルを生成するには、サンプルシートにGTFファイルを指定するか、既定のgenes.gtf.gzとリファレンスゲノムが存在することを確認します。
このパイプラインは、以下の出力ファイルを生成します。
コンポーネント |
タイプ |
出力ファイル名 |
内容説明 |
||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
マッピング/アライニング |
BAMまたはCRAM |
|
SAM仕様を満たすアライメント出力。 |
||||||||||||
遺伝子融合検出 |
プレーンテキスト |
|
|
||||||||||||
転写因子の定量 |
プレーンテキスト |
|
|
||||||||||||
発現差異 |
PNG |
発現差異の出力ファイルに関する下記の表を参照してください。 |
出力ファイルを生成するには、サンプルシートに比較対象が設定されている必要があります。 |
ファイル名 |
内容説明 |
---|---|
Control_vs_Comparison.differential_expression_metrics.csv |
発現差解析メトリクスが含まれます。 |
Control_vs_Comparison.genes.counts.csv |
コントロールグループと比較グループのサンプルごとに、各遺伝子にマップされたリードの数が記載されます。 |
Control_vs_Comparison.genes.heatmap.png |
コントロールグループと比較グループのサンプルについて、発現差のある遺伝子の発現を表すヒートマップです。このヒートマップには、調整されたp値が-0.05未満である、発現差のある遺伝子のみが示されます。発現差のある遺伝子の数が30を超える場合、上位30位までの発現差のある遺伝子のみが使用されます。DESeq1が収束に失敗した場合、または発現差のある遺伝子が存在しない場合、ファイルは生成されません。 |
Control_vs_Comparison.genes.ma.png |
遺伝子発現比のばらつきが平均シグナル強度の関数として示されます。2つのサンプルの測定値の差を示すために、データがM(ログ比率)スケールとA(平均)スケールに変換され、値がプロットされます。MAプロットでは、すべてのサンプルについて、ノーマライズされたカウントの平均に対する特定の変数に起因するlog2倍率変化が示されます。調整されたp値が0.1未満の場合、点は赤色です。ウィンドウの範囲外の点は、白三角でプロットされます。上向き三角は、正の対数倍率変化を表します。下向き三角は、負の対数倍率変化を表します。 |
Control_vs_Comparison.genes.pca.png |
最も大きい差異を説明する、最初の2つの主要要素を示すプロットです。 |
Control_vs_Comparison.genes.res.csv |
DESeq2の結果が含まれます。この結果では、発現量の平均値、log2(倍率変化)、log2の標準誤差、p値、調整されたp値、各遺伝子の発現状態が示されます。 |
Control_vs_Comparison.genes.rlog.csv |
DESeq2により計算された、正規化された対数変換カウントが含まれます。 |

DRAGEN Single Cell RNAパイプラインは、以下の機能をサポートします。
• | サンプルのデマルチプレックス |
• | マッピングとアライメント(ソートと重複マーキングを含む) |
• | 細胞および遺伝子の分類 |
出力ファイルを生成するには、サンプルシートにGTFファイルを指定するか、既定のgenes.gtf.gzとリファレンスゲノムが存在することを確認します。
このパイプラインは、以下の出力ファイルを生成します。
コンポーネント |
タイプ |
出力ファイル名 |
|||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
マッピング/アライニング |
BAMまたはCRAM |
|
|||||||||
細胞/遺伝子分類 |
TSV、CSV、MTX |
|
|||||||||
解析レポート |
HTML |
<sample_name>.dragen.scrna-report.*.html |

DRAGEN BCL Convertパイプラインは、シーケンスランで生成されたBCLデータとサンプルシートの情報を使用して、各サンプルのFASTQファイルを出力します。FASTQファイル名は<sample_name>.fastq.gzです。
このパイプラインは、以下のレポートを生成します。
コンポーネント |
タイプ |
出力ファイル名 |
|||
---|---|---|---|---|---|
デマルチプレックス |
CSV |
|
|||
アダプターメトリクス |
CSV |
|
|||
インデックスホッピング |
CSV |
|
|||
上位の不明なバーコード |
CSV |
|

デマルチプレックス統計レポートには、サンプルシート内の各サンプルに割り当てられたパスフィルターリード数に関する情報が含まれています。サンプルと明確に関連付けられていないリードは、「undetermined」と分類されます。また、各サンプルに割り当てられたパスフィルター(PF)リード内の塩基のクオリティスコアに関する情報も含まれます。
このレポートには以下の情報が含まれます。
メトリクス |
内容説明 |
---|---|
Lane |
サンプルをシーケンスしたフローセルのレーン。 |
SampleID |
サンプルシートから取得されたサンプルID。リードがどのサンプルにも対応しない場合、このフィールドには「undetermined」と表示されます。 |
Index |
サンプルシートのIndex Read 1とIndex Read 2をハイフンで区切って連結したもの。リードがどのサンプルにも対応しない場合、このフィールドには「undetermined」と表示されます。 |
# Reads |
指定したレーンのサンプルに対してデマルチプレックスされたPFリードの数。 |
# Perfect Index Reads |
サンプルシートに指定されているインデックス配列の組み合わせに完全に一致するリードの数。 |
# One Mismatch Index Reads |
サンプルシートに指定されているインデックス配列の組み合わせにおいてエラーが1つのリードの数。 |
# of ≥ Q30 Bases (PF) |
Q30クオリティ閾値を超えるリードに対応する塩基(アダプターを含む)の数。 |
Mean Quality Score (PF) |
指定したレーンのサンプルに対応するリードの平均クオリティスコア。この値にはアダプター塩基が含まれます。 |

アダプターメトリクスファイルには、各リードに関連するアダプターとサンプル塩基の数が含まれます。
このレポートには以下の情報が含まれます。
メトリクス |
内容説明 |
---|---|
Lane |
サンプルをシーケンスしたフローセルのレーン。 |
Sample_ID |
サンプルシートから取得されたサンプルID。リードがどのサンプルにも対応しない場合、このフィールドには「undetermined」と表示されます。 |
Index |
サンプルシートから取得されたIndex1シーケンス。サンプルシートにIndexが指定されていない場合、またはサンプルIDの値が「undetermined」の場合、このフィールドはブランクになります。 |
Index2 |
サンプルシートから取得されたIndex2シーケンス。サンプルシートにIndex2が指定されていない場合、またはサンプルIDの値が「undetermined」の場合、このフィールドはブランクになります。 |
R1_AdapterBases |
サンプルシートのAdapterRead1に対応する塩基の数。 |
R1_SampleBases |
対応するレーンおよびサンプルの、Read 1からトリムまたはマスクされた塩基の数。 |
R2_AdapterBases |
サンプルシートのAdapterRead2に対応する塩基の数。 |
R2_SampleBases |
対応するレーンおよびサンプルの、Read 2からトリムまたはマスクされた塩基の数。 |
# Reads |
指定したレーンのサンプルに対するリードの数。 |

インデックスホッピングカウントレポートには、デュアルインデックスランにおいて期待されるインデックスとホッピングが起こったインデックスのリードの数が含まれます。このレポートには、レーンごとの、どちらのインデックスでもバーコードの重複が検出されないユニークデュアルインデックスのみが含まれます。レーンのインデックスホッピングメトリクスを生成するには、各インデックス内のすべてのエントリーペアに少なくとも2N +1のハミング距離が必要です。ここでNは、そのインデックスに指定されたバーコードの許容されるミスマッチ数を示します。
このレポートには以下の情報が含まれます。
インデックのないラン、シングルインデックスラン、またはユニークデュアルインデックスを含まないレーンの場合、このファイルにはヘッダーのみが含まれます。
メトリクス |
内容説明 |
---|---|
Lane |
サンプルをシーケンスしたフローセルのレーン。 |
# Reads |
指定したレーンのサンプルに対するリードの数。 |
SampleID |
サンプルシートから取得されたサンプルID。リードがどのサンプルにも対応しない場合、このフィールドには「undetermined」と表示されます。 |
Index |
サンプルシートから取得されたIndex1シーケンス。リードがシングルエンドの場合、またはサンプルIDの値が「undetermined」の場合、このフィールドはブランクになります。 |
Index2 |
サンプルシートから取得されたIndex2シーケンス。リードがシングルエンドの場合、またはサンプルIDの値が「undetermined」の場合、このフィールドはブランクになります。 |

上位の不明なバーコードレポートには、許容されるミスマッチ数に従って、サンプルシートで識別されなかったレーンごとの上位100のインデックスまたはインデックスペアが含まれます。100番目に高いインデックスカウントエントリーとして配置されたインデックスが複数ある場合、同じカウントのすべてのインデックス値が100番目のエントリーとして出力されます。
このレポートには以下の情報が含まれます。
メトリクス |
内容説明 |
---|---|
Lane |
サンプルをシーケンスしたフローセルのレーン。 |
Index |
Index Read 1の各不明インデックスの配列。不明インデックスがない場合、このフィールドはブランクになります。 |
Index2 |
Index Read 2の各不明インデックスの配列。ランがシングルリードの場合、または不明インデックスがない場合、このフィールドはブランクになります。 |
# Reads |
指定したレーンのサンプルに対するリードの数。 |

すべてのパイプラインについて、DRAGEN FastQCは、デフォルトでQCプロットを生成します。集約されたQC結果はAggregatedFastqcMetricsフォルダーに保存され、サンプルごとの結果は<sample_name>フォルダーに保存されます。
サンプル数が512より多い場合、
以下のQCプロットが提供されます。
QCプロット |
内容説明 |
---|---|
adapter_content |
各塩基対のシーケンスの割合。 |
positional_mean_quality |
各リード位置の、Phredスケールのベースクオリティスコアの平均。 |
gc_content |
各シーケンスリードのGCコンテンツの割合。 |
positional_quality.read_1 |
Read 1の特定の位置での、特定のヌクレオチドを持つ塩基のPhredスケールのクオリティ値の平均。 |
gc_quality |
|
positional_quality.read_2 |
Read 2の特定の位置での、特定のヌクレオチドを持つ塩基のPhredスケールのクオリティ値の平均。 |
n_content |
|
read_length |
各リードのシーケンス長。 |
positional_base_content.read_1 |
Read 1の特定の位置での、各ヌクレオチドの塩基の数。 |
read_quality |
各シーケンスリードの、Phredスケールのクオリティスコアの平均。 |
positional_base_content.read_2 |
Read 2の特定の位置での、各ヌクレオチドの塩基の数。 |