Zentrum für Humangenetik und Laboratoriumsmedizin, Dr. Klein, Dr. Rost und Kollegen

NGS Auswertung

Die Rohdaten der verschiedenen Sequenzierplattformen (Illumina, Roche454, Life Technologies) werden als fastq Format in CLC Genomic Workbench importiert. Innerhalb dieser Software werden diese Daten je nach Enrichment (Amplikon-basiert oder Sondenhybridisierung) prozessiert, wie zum Beispiel durch „demultiplexing“ und spezielles „trimming“ (Zurechtschneiden) der Sequenzen. Ein Demultiplexing ist nötig, wenn verschiedene Proben simultan in einem Lauf sequenziert wurden. Jede Probe erhält einen eindeutigen Barcode, mit dem man jede Sequenz dieser Probe zuordnen kann. Ein sogenanntes Trimming kann aus zwei Gründen erfolgen: Einerseits dient es zur Entfernung von Linkersequenzen, die das Mapping verfälschen können, oder es wird andererseits zur Verbesserung der Qualität eingesetzt, zum Beispiel durch Abtrennung aller Basen unter einem bestimmten Q-Value am 3‘-Ende der Sequenz. Danach werden die Sequenzen der einzelnen Proben an das Humangenom (hg19) aligniert (Mapping). Mit diesem Mapping als Grundlage wird ein „Variant Call“ durchgeführt, der alle Abweichungen der zu analysierenden Sequenzen von der Referenzsequenz unbeachtet der Zygosität (homo- oder heterozygot) in Form einer Tabelle ausgibt. Diese werden neben Exonnummerierung, cDNA- und Aminosäreaustausch mit verschiedenen Datenbanken wie HGMD®, COSMIC, dbNSFP, PGX, sowie GWAS- und EVS Daten, Online Mendelian Inheritance in Man (OMIM®) Informationen und experimentell verifizierten „transcription factor-binding sites“ (TFBS) annotiert (Genome Trax ™ Modul von Biobase). Des Weiteren wird eine Coverage-Statistik pro Exon und pro Base erstellt um somit schlecht abgedeckte Bereiche (coverage < 20) zu detektieren und gegebenenfalls mittels Sanger-Sequenzierung nach zu analysieren.

Die Ergebnisse dieses Variant Calls werden in eine in-house Datenbank importiert. Die Datenbank nützt Informationen von allen sequenzierten Proben in anonymisierter Form zur internen Qualitätskontrolle, der Detektion von potentiellen Artefakten der Sequenzierung und zur Bestimmung der Frequenz jeder Variante in dem hausinternen Patientenkollektiv. Die Datenbank ist über ein Webinterface abfragbar und erlaubt ein dynamisches Filtern der Daten während der Auswertung.

NGS Auswertung - GATK und MIDAS

Eine weitere Möglichkeit der Anaylse von NGS Daten bietet der Genome Analysis Tool Kit (GATK) der am Broad Institute im Rahmen des 1000 Genomes Project entwickelt, und durch die Folgeprojekte EXAC und GnomAD konstant weiterentwickelt wurde. Die GATK Pipeline übernimmt das Alignment der Reads an die aktuellste Version des Humangenoms (hg38), wobei Qualitätsparameter des Alignments wie Anzahl der gemappten Reads, größe der DNA Fragmente sowie die Duplikatrate bestimmt werden können. Anschließend folgt auch hier der Schritt des Variant Calls, in dem alle Abweichungen zum Referenzgenom bestimmt werden. Des Weiteren wird eine Coverage-Statistik pro Exon und pro Base erstellt, um somit schlecht abgedeckte Bereiche (coverage < 20) zu detektieren und gegebenenfalls mittels Sanger-Sequenzierung nach zu analysieren.

Die Ergebnisse dieses Variant Calls werden dann in unser in-house knowledge Management System MIDAS importiert. Hier findet einerseits die Annotation aller Varianten mit externen Datenbanken wie HGMD®, dbNSFP, ExAC, GnomAD und dbSNP statt. Andererseits können klinische Informationen basierend auf der Human Phenotype Ontology (HPO) zu den Fällen eingegeben werden, um die Auswertung zu unterstützen. MIDAS bietet ein Semi-automatisiertes Klassifikationsmodul, in dem Varianten nach den Regeln der ACMG klassifiziert werden können1. Einmal eingegebene Klassifikationen und Bewertungen von Varianten werden im System gespeichert und stehen damit für alle weiteren Patienten automatisch zur Verfügung.

 

1Richards, S., et al. (2015). "Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology." _Genet Med_*17*(5): 405-424.