Vergleich von Proteinstrukturen
Protein Structure Comparison
Wissenschaftsdisziplinen
Biologie (40%); Informatik (30%); Mathematik (30%)
Keywords
-
Protein Structures,
Structural Proteomics,
Protein Classification,
Rigid Body Superimposition
Fortschritte in der Molekularbiologie haben es ermöglicht, die DNA-Sequenz ganzer Genome zu bestimmen. Eine wesentliche Aufgabe ist es nun, Gene und die zugehörigen Proteine funktionell zu charakterisieren. Um die Funktion eines Proteins zu verstehen und zu bestimmen, ist die Kenntnis der Raumstruktur des Proteins von unschätzbarem Wert. Gegenwärtig sind etwa 17.000 Proteinstrukturen öffentlich zugänglich. Sogenannte "structural genomics" oder "structural proteomics" Initiativen wurden ins Leben gerufen, um Proteinstrukturen in großem Maßstab zu bestimmen. Das wird die Anzahl der verfügbaren Proteinstrukturen in den nächsten Jahren vervielfachen. Biologen werden mit einer enormen Menge von Strukturdaten konfrontiert sein, welche es zu analysieren gilt. Die bekannten Proteinstrukturen müssen in Proteinfamilien klassifiziert, neu hinzukommende Strukturen in diese Klassifikation eingereiht, strukturelle Vorlagen für das Modellieren unbekannter Proteinstrukturen erstellt, die Methoden zur Vorhersage von Proteinstrukturen entwickelt und optimiert werden. All dies erfordert leistungsfähige Methoden zum Vergleich von Proteinstrukturen, mit großen Anforderungen an Präzision, Flexibilität und Rechengeschwindigkeit. Eine Methode namens ProSup für den Vergleich von Proteinstrukturen wurde bereits von uns entwickelt. ProSup basiert auf der Superposition starrer Körper. Es liefert einen Satz alternativer Lösungen und implementiert mehrere Filter um die Qualität der Lösungen zu sichern. ProSup wurde und wird in verschiedenen Bereichen der Bioinformatik eingesetzt, z.B. zur Optimierung von Methoden zur Faltungserkennung oder zur Evaluierung der groß angelegten Strukturvorhersage-Experimente CASP3 und CASP4. Im Zuge dieser Anwendungen sind einige Einschränkungen dieser Methode zutage getreten, nämlich Schwierigkeiten beim Vergleich flexibler Strukturen, die Behandlung von Proteinen unterschiedlicher Topologie und Bewertung und Geschwindigkeit in Datenbanksuchen. Das Ziel des vorliegenden Projektes ist es, eine Methode zu entwickeln, welche diese Probleme löst. Das Ergebnis wird einerseits ein Programm sein, welches lokal installiert werden kann, und andererseits ein Web-Server, welcher über das Internet zugänglich sein wird. Die Software kann somit sowohl für Detailstudien als auch auch in großem Maßstab eingesetzt werden. Beides, Programm und Webservice, werden der wissenschaftlichen Gemeinschaft der zur Verfügung stehen.
Protein-Moleküle spielen eine zentrale Rolle in allen lebenden Systemen. Sie zeigen enorme Unterschiede in Größe, Gestalt, physikalischen und chemischen Eigenschaften. Die räumliche Struktur (3D-Struktur) eines Proteins, d.h. die exakten Positionen der einzelnen Atome, bestimmt seine biologische Funktion. Proteine sind lineare, unterschiedlich lange Ketten aus 20 verschiedenartigen Aminosäuren. Die Anordnung der Aminosäuren in der Kette bestimmt die 3D-Struktur des Moleküls. Seit mehr als 30 Jahren werden Proteinsequenzen und -strukturen experimentell bestimmt. Beinahe drei Millionen Proteinsequenzen und etwa 33.000 Proteinstrukturen wurden in öffentlichen Datenbanken gesammelt. Proteine mit ähnlicher Sequenz haben eine ähnliche 3D-Struktur und somit normalerweise sehr ähnliche biologische Funktionen. Im Laufe der Evolution kann sich die Sequenz zweier Proteine, die vom selben Vorläuferprotein abstammen, weit auseinander entwickelt haben, obgleich ihre Funktion bewahrt wurde, weil die Struktur besser konserviert wird. Hier kommt nun der Vergleich von Proteinstrukturen ins Spiel. Erweisen sich zwei in der Sequenz stark unterschiedliche Proteine aber als strukturell sehr ähnlich, kann man auf ähnliche Funktion schließen. Dies beschreibt nur ein Beispiel für den Einsatz von Strukturvergleichsmethoden, es gibt natürlich noch andere. Der Vergleich von 3D-Strukturen ist ein rechnerisch weitaus schwierigeres Problem als der Vergleich von Proteinsequenzen. Mehrere Methoden wurden bereits weltweit in verschiedenen Forschungsgruppen entwickelt. Allen Methoden gemeinsam ist, dass sich ihre Ergebnisse bei sehr ähnlichen 3D-Strukturen kaum unterscheiden. Mit steigender Unähnlichkeit werden die Ergebnisse allerdings immer unterschiedlicher oder die Methoden versagen überhaupt. In diesem Projekt haben wir nun einen Datensatz verwandter Proteine mit geringer aber gesicherter Ähnlichkeit zusammengestellt, in welchem alle möglichen Probleme repräsentiert sind, wie z.B. Flexibilität oder Änderungen in der Sequenzabfolge. Dann haben wir das Verhalten verschiedener Vergleichsmethoden bezüglich dieser Testfälle analysiert und ihre Stärken und Schwächen identifiziert. Es wurde dann eine Softwareplattform erstellt, die als Basis zur Entwicklung neuer Ansätze dient. Ausgehend von den Beobachtungen in der Analysephase haben wir eine Vergleichsmethode erarbeitet, welche nun die meisten der Problemfälle im Datensatz richtig verarbeitet. Nachdem der Vergleich von Proteinstrukturen so ein schwieriges Problem ist, bleibt natürlich Raum für weitere Verbesserungen. Unsere Softwareplattform und der Testsatz von Strukturpaaren erlaubt es jedoch, nun neue Methoden schneller zu entwickeln und zu testen. Verbesserte Methoden erlauben es uns wiederum, um an obiges Anwendungsbeispiel anzuschließen, neu bestimmte Proteinstrukturen mit besserer Erfolgsrate und präziser zu beschreiben und zu klassifizieren.
- Universität Salzburg - 100%
Research Output
- 78 Zitationen
- 2 Publikationen
-
2007
Titel Comparative Analysis of Protein Structure Alignments DOI 10.1186/1472-6807-7-50 Typ Journal Article Autor Mayr G Journal BMC Structural Biology Seiten 50 Link Publikation -
2008
Titel Automated Quantitative Assessment of Proteins' Biological Function in Protein Knowledge Bases DOI 10.1155/2008/897019 Typ Journal Article Autor Mayr G Journal Advances in Bioinformatics Seiten 897019 Link Publikation