Real-Time Analysis
Het MiSeq i100 Plus System werkt met RTA-software (Real-Time Analysis) op de Compute Engine (CE) van het instrument. RTA extraheert intensiteiten uit beelden die van de camera zijn ontvangen, voert basebepaling uit, kent een kwaliteitsscore toe aan basebepalingen, lijnt uit met PhiX en rapporteert gegevens in InterOp-bestanden voor weergave in de MiSeq i100 Plus Control Software (besturingssoftware).
Om de verwerkingstijd te optimaliseren, slaat RTA informatie op in het geheugen. Als RTA wordt beëindigd, wordt de verwerking niet hervat en gaan alle rungegevens die in het geheugen worden verwerkt verloren.
RTA-invoer
RTA vereist tegelbeelden in het lokale systeemgeheugen om te kunnen verwerken. RTA ontvangt runinformatie en opdrachten van de besturingssoftware.
RTA-uitvoer
Beelden voor elk kleurkanaal worden in het geheugen aan RTA doorgegeven als tegels. Op basis van deze beelden voert RTA een set op kwaliteit beoordeelde basebepalingsbestanden en filterbestanden uit. Alle andere uitvoer is ondersteunende uitvoerbestanden.
Bestandstype |
Beschrijving |
---|---|
Basebepalingsbestanden |
Elke geanalyseerde tegel wordt opgenomen in een aaneengeschakeld basebepalingsbestand (*.cbcl-bestand). Tegels van dezelfde baan en hetzelfde oppervlak worden samengevoegd tot 1 *.cbcl-bestand voor elke baan en elk oppervlak. |
Filterbestanden |
Elke tegel produceert een filterbestand (*.filter) dat specificeert of een cluster door filters doorgelaten wordt. |
Clusterlocatiebestanden |
Clusterlocatie (*.locs)-bestanden bevatten de X- en Y-coördinaten voor elke cluster in een tegel. Voor elke run wordt een clusterlocatiebestand gegenereerd. |
InterOp-bestanden |
Binaire rapportagebestanden gebruikt |
Uitvoerbestanden worden gebruikt voor stroomafwaartse analyse.
Kwaliteitsscores
Een kwaliteitsscore (Q-score) is een voorspelling van de kans op een onjuiste basebepaling. Een hogere Q-score duidt erop dat een basebepaling van een hogere kwaliteit is en daardoor waarschijnlijk juist is. Na bepaling van de Q-score worden de resultaten in basebepalingsbestanden (*.cbcl-bestanden) geregistreerd.
Via de Q-score wordt op beknopte wijze de waarschijnlijkheid van kleine fouten gecommuniceerd. Kwaliteitsscores worden vermeld als Q(X), waarbij X de score is. De volgende tabel toont de relatie tussen een kwaliteitsscore en de kans op fouten.
Q-score Q(X) |
Foutenkans |
---|---|
Q40 |
0,0001 (1 in 10.000) |
Q30 |
0,001 (1 op 1000) |
Q20 |
0,01 (1 op 100) |
Q10 |
0,1 (1 op 10) |
Kwaliteitsscore en rapportage
Voor de kwaliteitsscore wordt voor elke basebepaling een set voorspellers berekend en worden vervolgens de voorspellende waarden gebruikt om de Q-score in een kwaliteitstabel op te zoeken. De kwaliteitstabellen zijn opgesteld om optimaal nauwkeurige kwaliteitsvoorspellingen te doen voor runs die zijn gegenereerd door middel van een specifieke configuratie van sequencingplatform en chemieversie.
De kwaliteitsscore is gebaseerd op een aangepaste versie van het Phred-algoritme.
Om de Q-tabel voor het MiSeq i100 Plus System te genereren, werden drie groepen basebepalingen bepaald, gebaseerd op de voorspellende kenmerken. Na groepering van de basebepalingen werd het gemiddelde foutenpercentage voor elk van de drie groepen empirisch berekend en werden de overeenkomstige Q‑scores in de Q‑tabel opgenomen, samen met regels om oproepen aan de hand van de voorspellende kenmerken van een oproep aan die groep toe te wijzen. Er zijn dus met RTA maar drie Q‑scores mogelijk en deze Q‑scores geven het gemiddelde foutenpercentage van de groep weer. Alles bij elkaar genomen resulteert dit in vereenvoudigde, maar zeer nauwkeurige kwaliteitsscores. De drie groepen in de kwaliteitstabel komen overeen met marginaal (< Q18), middelmatige (Q18 tot Q29) en hoogwaardige (> Q29) basebepalingen. De groepen krijgen specifieke scores toegewezen, zoals respectievelijk 12, 24 en 38. Verder wordt aan alle niet‑bepalingen die aan de BCL-bestanden worden toegewezen een score van 0 toegekend. Nadat BCL-bestanden zijn geconverteerd naar FASTQ-indeling, wordt een score van 2 toegekend aan niet-bepalingen. Met dit Q-score-rapportagemodel is minder opslagruimte nodig en is een lagere bandbreedte vereist zonder dat dit ten koste gaat van de nauwkeurigheid of prestaties.