
2023 Autor: Bailey Leapman | [email protected]. Zuletzt bearbeitet: 2023-05-20 22:37
Blitzschnell und doch hochempfindlich: HHblits ist ein neues Softwaretool für die Proteinforschung, das die Funktionsanalyse von Proteinen deutlich verbessern soll. Ein Team von Bioinformatikern unter der Leitung von Dr. Johannes Söding vom Genzentrum der LMU hat eine neue Sequenzsuchmethode entwickelt, um Proteine mit ähnlichen Sequenzen in Datenbanken zu identifizieren, die schneller ist und doppelt so viele evolutionär verwandte Proteine entdecken kann wie bisherige Methoden. Aus den funktionellen und strukturellen Eigenschaften der identifizierten Proteine können dann Rückschlüsse auf die Eigenschaften des zu analysierenden Proteins gezogen werden.
"Unsere Methode wird den Umfang und die Leistungsfähigkeit der Sequenzanalyse erweitern, was wiederum die experimentelle Aufklärung der Struktur und Funktion vieler Proteine erleichtern wird", sagt Söding, der auch Mitglied des Center for Integrated Protein ist Wissenschaft München (CiPSM).
Proteine sind an fast allen biochemischen Prozessen des Lebens beteiligt. Die Funktionen, die ein Protein erfüllt, hängen maßgeblich von der Abfolge der 20 Aminosäurebausteine und von der dreidimensionalen Raumstruktur ab, in die sich diese Aminosäuresequenz f altet. Aus der Ähnlichkeit von Proteinsequenzen können bioinformatische Methoden ihre evolutionäre Verwandtschaft vorhersagen, was wiederum ähnliche Strukturen und Funktionen impliziert. Daher werden zu untersuchende Proteine standardmäßig einer Sequenzsuche unterzogen, bei der ihre Sequenz mit Millionen von Sequenzen in öffentlichen Datenbanken mit annotierten Strukturen und Funktionen verglichen wird. Die Eigenschaften des interessierenden Proteins können dann aus den Eigenschaften der Proteine mit ähnlichen Sequenzen einschließlich ihrer Struktur und Funktionen gefolgert werden. Die allgemeine Beziehung zwischen Sequenz und Funktion macht es möglich, die Struktur und Funktion eines bestimmten Proteins vorherzusagen, indem seine Sequenz mit denen von Proteinen bekannter Struktur/Funktion verglichen wird. Es gibt öffentlich zugängliche Datenbanken, in denen die Sequenzen bekannter Proteine zusammen mit Informationen über ihre biologischen Funktionen gespeichert sind, was solche Vergleiche erleichtert. „Diese Art der Sequenzanalyse ist ein grundlegendes Werkzeug der Bioinformatik“, erklärt Söding.
Die Sequenzsuchprogramme bewerten die Sequenzähnlichkeit, indem sie paarweise Alignments berechnen: Die beiden Sequenzen von Aminosäuren werden so übereinander angeordnet, dass meist gleiche oder ähnliche Aminosäuren in denselben Sp alten gepaart werden. „Vielleicht noch wichtiger als die Suche nach paarweisen Sequenzähnlichkeiten ist die Zusammenstellung sogenannter multipler Sequenzalignments; dabei sucht man in vielen verwandten Proteinen nach ähnlichen Sequenzen und ordnet sie zu einer Matrix an, in der jede Sequenz eine Zeile ausfüllt und ähnliche Aminosäuren landen in denselben Sp alten", sagt Söding. Da die Funktionen und Strukturen evolutionär verwandter Proteine im Allgemeinen konserviert sind – d. h. auch dann erh alten bleiben, wenn die Sequenz durch Mutationen im Laufe der Evolution verändert wird – bilden multiple Sequenzalignments die Grundlage für die Vorhersage der Struktur und molekularen Funktionen nicht charakterisierter Proteine.
Seit 15 Jahren ist das Programm PSI-BLAST das beliebteste Werkzeug für den Vergleich von Proteinsequenzen, da es Geschwindigkeit mit hoher Sensitivität und Präzision verbindet. Nun hat Södings Team mit HHblits ein Verfahren entwickelt, das PSI-BLAST in allen Leistungsaspekten deutlich übertrifft. Diese Verbesserung ist hauptsächlich auf zwei Faktoren zurückzuführen. Zunächst wandeln die Forscher sowohl die interessierende Sequenz als auch die zu durchsuchenden Sequenzen in der Datenbank in sogenannte Hidden-Markov-Modelle (HMMs) um. HMMs sind statistische Modelle, in die die aus Sequenzalignments ermittelten Mutationswahrscheinlichkeiten einfließen – dieser Schritt erhöht also die Sensitivität und Präzision der anschließenden Ähnlichkeitssuche. Darüber hinaus hat das Team ein Filterverfahren entwickelt, mit dem die zu durchsuchende Datenmenge ohne nennenswerten Sensitivitätsverlust reduziert werden kann. Der Trick besteht darin, zunächst ähnliche Sequenzen aus der Datenbank zu mehreren Sequenz-Alignments zusammenzusetzen. Jede Ausrichtungssp alte wird dann mit einem von 219 „Buchstaben“beschriftet, sodass Sp alten mit ähnlicher Aminosäurezusammensetzung durch denselben Buchstaben dargestellt werden.
"Durch die Übersetzung der multiplen Sequenzalignments in Sequenzen aus diesen 219 Buchstaben können wir den zeitraubenden paarweisen Vergleich von HMMs durch den Vergleich einfacher Sequenzen ersetzen", sagt Söding. Dies reduziert die Suchzeit um das 2500-fache. Söding betont, dass „mit HHblits die Funktion und Struktur von Proteinen häufiger und genauer vorhergesagt werden kann, als dies bisher möglich war.“Seine Gruppe arbeitet bereits an weiteren Verbesserungen der Methode, indem sie zum Beispiel Informationen über die dreidimensionale Struktur von Proteinen einfließen lässt.