Zentrum für Humangenetik und Laboratoriumsmedizin, Dr. Klein, Dr. Rost und Kollegen

Sequence Alignment bei NGS

Eine Schlüsselstelle bei der Analyse von Next Generation Sequencing-Daten ist das Sequence Alignment, bei dem Millionen von sequenzierten DNA-Fragmenten (Reads) mit einer ausgewählten Referenzsequenz in angemessener Zeit abgeglichen (Alignment) werden müssen. Das Problem hierbei ist, einerseits die richtige Stelle des Referenz-Genoms zu finden, von dem der Read stammt. Aufgrund der repetitiven Regionen des Genoms und der limitierten Länge der Reads von wenigen 100 bp kommt es häufig vor, dass ein Read an mehrere Stellen des Genoms ähnlich gut passt. Auf der anderen Seite muss während des Alignments ein gewisses Maß an Flexibilität für Unterschiede zum Referenzgenom zugelassen werden, um Punktmutationen und andere genetische Veränderungen identifizieren zu können.

Aufgrund der massiven Datenmenge, die bei Next Generation Sequencing-Analysen generiert wird, benutzen alle Alignment-Algorithmen zusätzliche Datenstrukturen (Indices), die einen schnellen Zugriff und Abgleich von Sequenzdaten erlauben. Diese Indices werden je nach Algorithmus entweder über alle generierten Reads oder aber über das gesamte Referenzgenom erzeugt. Hierbei kommen Methoden aus der Informatik wie Hash-Tabellen oder Methoden aus der Datenkomprimierung wie Suffix-Arrays zum Einsatz. Mithilfe dieser Algorithmen ist es zum Beispiel möglich, über 100 Gb an Sequenzdaten aus NGS-Analysen in wenigen Stunden mit dem humanen Referenzgenom abzugleichen.