Genomwissenschaftler stellen Computer-Software-Tools zusammen, um mit der Flut von Rohdaten aus dem Humangenomprojekt und verwandten Bemühungen fertig zu werden

Genomwissenschaftler stellen Computer-Software-Tools zusammen, um mit der Flut von Rohdaten aus dem Humangenomprojekt und verwandten Bemühungen fertig zu werden
Genomwissenschaftler stellen Computer-Software-Tools zusammen, um mit der Flut von Rohdaten aus dem Humangenomprojekt und verwandten Bemühungen fertig zu werden
Anonim

WASHINGTON, D.C. - An der Schnittstelle von Informatik und Biotechnologie ist eine neue Disziplin entstanden, die die Leistungsfähigkeit fortschrittlicher Computertechniken zur Bewältigung komplexer Probleme in der Molekularbiologie nutzt. Dieses neue Gebiet, das als Bioinformatik oder Computational Biology bezeichnet wird, bietet Wissenschaftlern auf dem neuesten Stand der Forschung in der Genetik und anderen grundlegenden Bereichen der Biologie wichtige Werkzeuge.

Gensequenzierungsbemühungen wie das Human Genome Project, kombiniert mit neuen Techniken zur Untersuchung der Aktivität von Genen in lebenden Zellen, erzeugen enorme Mengen an Rohdaten. Diese Daten werden in einer Vielzahl von öffentlichen Computerdatenbanken, wie denen, die vom National Center for Biotechnology Information an den National Institutes of He alth verw altet werden, in einem sich schnell beschleunigenden Tempo angesammelt.

"Die treibende Kraft hinter der Bioinformatik ist die Verfügbarkeit dieser großen Datenbanken und die Notwendigkeit, ausgefeilte Computermodelle zu entwickeln, um daraus nützliche Informationen zu extrahieren", sagte David Haussler, Professor für Informatik an der University of California, Santa Cruz.

Haussler erörterte die Verwendung von Computertechniken zur Analyse genetischer Daten in einem Vortrag am Samstag (19. Februar) auf der Jahrestagung der American Association for the Advancement of Science in Washington, D.C.

Haussler, der das Center for Biomolecular Engineering der UCSC leitet, trat kürzlich dem Bioinformatik-Team des Human Genome Project bei.Bioinformatik spielt eine immer wichtigere Rolle in dem Projekt, einer internationalen Anstrengung, alle rund 100.000 menschlichen Gene zu identifizieren und zu verstehen.

"Die Computeranalyse wird ein integraler Bestandteil der Identifizierung von Genen und des Verständnisses ihrer Funktionen sein", sagte Haussler.

Der Satz genetischer Anweisungen zur Herstellung eines Organismus - sein Genom - ist in langen, fadenförmigen DNA-Molekülen enth alten, die fein säuberlich in Chromosomen im Kern jeder Zelle verpackt sind. Die Abfolge chemischer Einheiten in der DNA ist eine Art Code, der die Strukturen von Eiweißmolekülen angibt, die die meisten Funktionen lebender Zellen erfüllen.

Die vollständige DNA-Sequenz des menschlichen Genoms würde, wenn sie in Büchern zusammengestellt würde, 200 Bände in der Größe des Telefonbuchs von Manhattan füllen. Die Wissenschaftler des Humangenomprojekts sind kurz davor, einen groben Entwurf dieser Sequenz zu haben, aber das wird nur ein erster Schritt sein. In die Genomsequenz eingebettet sind die Gene – DNA-Sequenzen, die für bestimmte Proteine ​​kodieren – die letztendlich alle ererbten Eigenschaften des Menschen bestimmen.

Das Auffinden von Genen in genomischen DNA-Sequenzen ist eine der ersten Aufgaben, für die sich Wissenschaftler der Bioinformatik zugewandt haben. Es wird angenommen, dass weniger als 10 Prozent des menschlichen Genoms proteinkodierende Gensequenzen umfassen. Zwischen den Genen befinden sich Kontrollsequenzen, die die Genaktivität regulieren, und andere "nichtkodierende Regionen", deren Funktionen unklar sind.

Haussler und seine Mitarbeiter an der UC Santa Cruz haben einige der effektivsten Computertechniken entwickelt, um Gene in DNA-Sequenzen zu finden. Sie führten eine heute weit verbreitete statistische Methode namens Hidden-Markov-Modellierung ein, um dieses Problem anzugehen.

Um den Rohentwurf der menschlichen Genomsequenz zu analysieren, arbeitet Haussler eng mit Forschern des Whitehead Institute des Massachusetts Institute of Technology zusammen. Das Whitehead Institute ist einer von fünf großen Sequenzierungsstandorten, die am Human Genome Project beteiligt sind.

Die Arbeit mit dem Rohentwurf wird jedoch eine enorm schwierige Aufgabe sein, sagte Haussler.„Das Problem ist, dass der Rohentwurf keine kontinuierliche DNA-Sequenz über jedes Chromosom liefert – viele Regionen des Genoms sind nur von kleinen Stücken bedeckt“, sagte er.

Die erste Aufgabe, der sich Haussler und die Whitehead-Gruppe stellen, besteht darin, alle bisher sequenzierten Segmente des menschlichen Genoms in ihrer richtigen Reihenfolge und Orientierung entlang der Chromosomen auszurichten. Der nächste Schritt wird sein, Gene innerhalb der Genomsequenz zu lokalisieren. Dies wird in Zusammenarbeit mit Neomorphic, einem in Berkeley ansässigen Genomikunternehmen, unter Verwendung eines Computerprogramms namens Genie durchgeführt.

Genie wurde ursprünglich von Hausslers Gruppe und Forschern am Lawrence Berkeley National Laboratory (LBNL) entwickelt. Es wurde exklusiv von Neomorphic lizenziert und weiterentwickelt, das von einer Gruppe von Wissenschaftlern der LBNL, UC Berkeley und UCSC gegründet wurde. Genie wurde kürzlich verwendet, um Gene im Genom der Fruchtfliege Drosophila melanogaster zu identifizieren, die letztes Jahr sequenziert wurde.Neomorphic entwickelt jetzt eine neue Version von Genie, die für den Rohentwurf der menschlichen Genomsequenz optimiert ist.

Forschung zur Genetik von Organismen wie Drosophila, Hefe und dem Spulwurm Caenorhabditis elegans hat dazu beigetragen, die Grundlagen für die Untersuchung des viel komplexeren Genoms des Menschen zu legen. Viele menschliche Gene sind eng mit Genen verwandt, die in diesen einfacheren Organismen gefunden werden, die weithin als Modellsysteme für die Forschung in Genetik und Molekularbiologie verwendet werden. Studien an diesen Modellorganismen haben bereits viele wertvolle Einblicke in Genfunktionen, normale Genregulation, genetische Krankheiten und evolutionäre Prozesse geliefert.

Laut Haussler nimmt die Rolle der Bioinformatik in dieser Art von Forschung stetig zu, da die experimentellen Methoden ausgefeilter und komplexer werden. DNA-Microarrays oder „Gen-Chips“beispielsweise liefern wertvolle Informationen über die Genexpression – wann, wo und in welchem ​​Ausmaß bestimmte Gene aktiv sind.Diese Informationen sind entscheidend für das Verständnis der biologischen Funktion eines Gens. Aber Gen-Chips, wie die Genomsequenzierungstechnologie, produzieren enorme Datenmengen, die nur mit ausgeklügelten Computeransätzen analysiert und verstanden werden können.

"Es gibt viele Informationen zur Genfunktion, die als Ergebnis von groß angelegten Experimenten mit Genchips und anderen Methoden verfügbar werden, die riesige Datensätze über die Funktionen von Tausenden von Genen erzeugen", Haussler sagte.

Um diese komplexen Datensätze zu analysieren, leistet Haussler Pionierarbeit bei der Verwendung einer neuen statistischen Methode, die auf der Theorie der Support Vector Machines (SVMs) basiert. SVMs können hochdimensionale Datensätze verarbeiten, in denen jeder Datenpunkt viele Merkmale oder Attribute hat.

"Es ist schwer vorstellbar, weil wir in einer dreidimensionalen Welt leben und wir über die Analyse von Datensätzen in zehntausend oder mehr Dimensionen sprechen. Aber wir finden SVMs extrem nützlich für Gen-Chip-Daten", Haussler sagte.

Genomische Sequenzierung und Gen-Chips repräsentieren das, was Haussler "Genomik-Technologien mit hohem Durchsatz" nennt, leistungsstarke neue Techniken zum Verständnis der Molekularbiologie. Die Verwendung dieser Techniken nimmt zu, und sie alle stellen erhebliche Rechenherausforderungen dar. Eines der Ziele von Haussler ist die Entwicklung neuer statistischer und algorithmischer Methoden zur Integration dieser unterschiedlichen Arten von Genomdaten.

Im Moment steht die Analyse des Rohentwurfs der menschlichen Genomsequenz im Mittelpunkt von Hausslers Bemühungen. Langfristig sieht er jedoch eine glückliche und erfolgreiche Zukunft für die Verbindung von Informatik und Molekularbiologie voraus. Die Anwendung der Humangenomik auf Bereiche wie die Wirkstoffforschung und die klinische Diagnostik beispielsweise werde zweifellos neue Computermethoden erfordern, sagte er.

"Unsere Vision für die Bioinformatik umfasst ein breites Spektrum, von der grundlegenden Molekularbiologie bis hin zur klinischen Diagnostik", sagte Haussler.

Zusätzliche Informationen über Hausslers Forschungsprogramm finden Sie im Internet unter

Beliebtes Thema