Sequence Alignment bei NGS
Dr. rer. nat. Steffen Lott
Eine Schlüsselstelle bei der Analyse von Next Generation Sequencing-Daten ist das Sequence Alignment, bei dem Millionen von sequenzierten DNA-Fragmenten (Reads) mit einer ausgewählten Referenzsequenz in angemessener Zeit abgeglichen (Alignment) werden müssen. Das Problem hierbei ist, einerseits die richtige Stelle des Referenz-Genoms zu finden, von dem der Read stammt. Aufgrund der repetitiven Regionen des Genoms und der limitierten Länge der Reads von wenigen 100 bp kommt es häufig vor, dass ein Read an mehrere Stellen des Genoms ähnlich gut passt. Auf der anderen Seite muss während des Alignments ein gewisses Maß an Flexibilität für Unterschiede zum Referenzgenom zugelassen werden, um Punktmutationen und andere genetische Veränderungen identifizieren zu können.
Aufgrund der massiven Datenmenge, die bei Next Generation Sequencing-Analysen generiert wird, benutzen alle Alignment-Algorithmen zusätzliche Datenstrukturen (Indices), die einen schnellen Zugriff und Abgleich von Sequenzdaten erlauben. Diese Indices werden je nach Algorithmus entweder über alle generierten Reads oder aber über das gesamte Referenzgenom erzeugt. Hierbei kommen Methoden aus der Informatik wie Hash-Tabellen oder Methoden aus der Datenkomprimierung wie Suffix-Arrays zum Einsatz. Mithilfe dieser Algorithmen ist es zum Beispiel möglich, über 100 Gb an Sequenzdaten aus NGS-Analysen in wenigen Stunden mit dem humanen Referenzgenom abzugleichen. Mithilfe von hoher Paralellisierung von Rechenkapazität (CPUs), zum Beispiel durch Cloud Computing, ist es möglich, diese Zeit noch einmal signifikant zu reduzieren. So können auch große Mengen an Sequenzierdaten aus Whole-Exome oder Whole-Genome Sequenzierungen effizient bearbeitet werden.
Kontakt
Abteilungsleitung:
Dr. rer. nat. Steffen Lott
Lochhamer Str. 29
82152 Martinsried
Tel.: +49 (0) 89 89 55 78-0
mvz-martinsried-info@medicover.com