Blog durchsuchen
Profil
Alexander Knoll ist Biologe. Für seine Promotion am Karlsruher Institut für Technologie versucht er, die DNA-Reparatur und -Rekombination in Pflanzen besser zu verstehen.
Emanuel Heitlinger promoviert an den Universitäten Karlsruhe und Edinburgh. Er untersucht mit Hilfe von Hochdurchsatz-DNA-Sequenzierung die Evolution eines Wirt-Parasit-Systems.
Letzte Einträge
- The MolBio Carnival #92 Kommentare· 04.04.11
- Krebszellen sind verkappte Individualisten? Eher nicht.12 Kommentare· 28.02.11
- Da bin ich wieder!8 Kommentare· 16.02.11
- The MolBio Carnival, third edition11 Kommentare· 04.10.10
- Der Molbio Blogkarneval3 Kommentare· 19.09.10
Kommentare
- Fred · 07.12.11 · 19:03 Uhr Das Venter-Rezept für Bakterien mit synthetisiertem Genom
- Ralf · 15.11.11 · 16:40 Uhr Die Wurst mit Zähnen kriegt keinen Krebs!
- Ina · 07.11.11 · 16:53 Uhr Krebszellen sind verkappte Individualisten? Eher nicht.
- Uwe · 24.10.11 · 09:56 Uhr Zwei ideale Bücher zum Einstieg in R
- Sina · 27.09.11 · 19:57 Uhr Nebelparder Babies - süß bis zum Umfallen!
Blogroll
Alexander Knoll aufDeutsche Wissenschaft
- *Evil under the Sun*
- Ach Du lieber Darwin!
- Begrenzte Wissenschaft
- Bierologie
- bio crash
- Biotechnologie.de
- Bloggen in der Wissenschaft - academics-Blog
- cBlog
- EbM-Anwender - Blog für angewandte Evidenzbasierte Medizin
- Fischblog
- MIND & MOLECULES
- Paperfrust - hier raus lassen!
- Research Blogging - All Topics - German
- SCIENCE-MEETS-SOCIETY
- Selective Sweep
- Skeptic as hell - Die Welt im Blick...
- Varia & Eventualia
- Vom Hai gebissen
- Wissenschafts-Café
- wissenslogs
Englische Wissenschaft
- adaptivecomplexity's blog
- Aetiology
- Bad Science
- Bayblab
- bioephemera
- Biofortified
- Biology in Science Fiction
- Bitesize Bio
- Botany Photo of the Day
- Cancer and Your Genes
- Catalogue of Organisms
- Clinical Genetics Blog (beta v0.1)
- Discovering Biology in a Digital World
- easternblot.net
- EveryONE
- Genetic Future
- Genetic Maize - Navigating the maze of GMOs
- genomeboy.com
- Genomicron
- Genomics, Evolution, and Pseudoscience
- Greg Laden's Blog
- Interrogating Nature
- JCB Biowrites
- Labtutorials in Biology
- Mailund on the Internet
- Mendeley Blog
- Microarray and bioinformatics
- Mobile DNA
- Molecule of the Day
- Morbid Anatomy
- Myrmecos Blog
- Next Generation Sequencing
- No seeds, no fruits, no flowers: no problem.
- nodalpoint.org - A bioinformatics weblog
- Not Exactly Rocket Science
- Omics! Omics!
- Ouroboros
- Parasite of the Day
- Pharyngula
- Pimm - Partial immortalization
- Pyrenaemata
- RealClimate
- Research Blogging - All Topics - English
- RRResearch
- Sandwalk
- Science-Based Medicine
- ScienceRoll
- Sex, genes & evolution
- The Barcode of Life blog
- The Daily Transcript
- The Ensembl Weblog
- The Giant's Shoulders
- The Inoculated Mind
- The Loom
- The Mobilome
- The Seven Stones
- The Tree of Life
- The Y.O.R.F.
- Think Gene
- Tomorrow's Table
- When The Scientist Presents
- Yann Klimentidis' Weblog
Kategorien
« vorheriger Beitrag · nächster Beitrag »
09.03.09 · 17:59 Uhr
Vanity BLAST
Kategorie: Naturwissenschaften · Kommentare: 8
Was eine vanity search ist, dürften die meisten wissen: Man gibt den eigenen Namen in eine Suchmaschine ein und sieht nach, was man alles an Ergebnissen präsentiert bekommt.
So etwas kann man aber auch benutzen, um Spaß mit biologischen Datenbanken zu haben - und dabei noch etwas zu lernen!
1965 wurde ein kleines Büchlein verfasst: Der "Atlas of Protein Sequences and Structures" von Margaret O. Dayhoff [1] trug alle damals bekannten Proteinsequenzen, ganze 65 Stück, zusammen. Seitdem hat sich, nicht zuletzt dank der enormen Weiterentwicklungen der Sequenziertechnologien und der Vergrößerung der Rechenkapazitäten einiges getan. Die Sequenzdatenbanken beim amerikanischen National Center for Biotechnology Information (NCBI) fassen mittlerweile Sequenzen von Genen, Proteinen, Umweltproben, aber auch ganzen Genomen. Alleine die Datenbank GenBank wuchs von 606 Einträgen (680338 Basenpaaren) 1982 auf über 100 Millionen Einträge beziehungsweise über 100 Milliarden Basenpaaren diesen Februar! Von 1982 bis heute hat sich die Anzahl an Basenpaaren in der GenBank alle 18 Monate verdoppelt.
Für so riesige Datenbanken braucht man natürlich sehr gute Suchmöglichkeiten. Das klassische "Suchprogramm" für Sequenzdatenbanken, praktisch das Google für Sequenzen, ist der BLAST-Algorithmus [2]. BLAST nimmt eine Nukleotid- oder Proteinsequenz entgegen, vergleicht sie mit einer Datenbank der Wahl, und gibt eine Liste mit möglichen Treffern zurück.
Wichtig zum Bewerten der ausgegebenen Treffer sind zwei Werte. Der Score berechnet sich relativ einfach: Für jede Sequenzübereinstimmung erhält er einen Wert von +2, für jede Nichtübereinstimmung einen Wert von -3. (Das gilt für Nukleotidvergleiche, bei Aminosäuresequenzen ist die Berechnung ein wenig komplexer.) Der Sequenzvergleich mit dem größten Score wird dann als der beste angenommen. Fast noch wichtiger ist der E-Wert. Er gibt die Wahrscheinlichkeit an, Sequenzen mit einem bestimmten Score (oder besser) zu erhalten, wenn mit einer Zufallssequenz gesucht würde. Dies wird besonders dann wichtig, wenn mit relativ kurzen Sequenzen gegen eine große Datenbank gesucht wird - je kürzer die Sequenz, desto wahrscheinlicher, dass sie rein zufällig in der Datenbank vorkommt. Deshalb gilt: Je kleiner der E-Wert eines Treffers, desto besser ist er einzuschätzen.
Und damit komme ich wieder zurück zum Anfang dieses Posts. Selbstverständlich kann man zum Experimentieren mit BLAST auch mal so etwas wie seinen Namen eingeben und nachsehen, was man für Treffer erhält. Das bezeichne ich jetzt einfach mal in Anlehnung an die Suchmaschinen als Vanity BLAST. Die 20 Aminosäuren, die für den Aufbau von Proteinen benutzt werden, können durch einen Ein-Buchstaben-Code [1] abgekürzt werden. Außer B, J, O, U, und Z kommen dabei alle Buchstaben unseres Alphabets vor [3].
Ausgehend von der BLAST-Homepage des NCBI wählt man hierzu "Protein BLAST".
![]()
Im großen Feld ganz oben gibt man die Sequenz ein, die in der Datenbank gesucht werden soll, etwa meinen Namen. Dann muss man nur noch die Datenbank auswählen, wobei "Non-redundant protein sequences (nr)" hier die beste Wahl ist, und den zu verwendenden Algorithmus. Hier empfiehlt sich zum Start "blastp". Dann nur noch auf den großen Button "BLAST" klicken, und los gehts [4]!
Als Ergebnis erhält man zunächst eine graphische Übersicht, in der die besten Treffer als Linien angezeigt werden. Die Länge und Farbe der Linien gibt an, über welchen Bereich der gesuchten Sequenz und mit welcher Score die Treffer vorliegen. Dann folgt eine Liste mit der Kurzzusammenfassung der Ergebnisse: Bezeichnung des Protein, Score und E-Wert. Erst darunter wird dann für jedes Ergebnis detailliert gezeigt, wie Suchsequenz und Treffer zusammenpassen. Selbst der beste Treffer ist bei mir mit einer Score von 30,3 und einem E-Wert von 20 eigentlich miserabel. Das war aber auch nicht anders zu erwarten bei einer Suchsequenz von 13 Aminosäuren und einer Datenbank von fast 3 Milliarden Aminosäuren Umfang!
Witzig an diesem Treffer ist, dass es sich dabei um das Protein RecO handelt. Dieses ist nämlich ein bakterielles DNA-Rekombinations- und Reparaturprotein - und ich arbeite an genau diesem Thema (wenn auch in Pflanzen)! Dabei hatte ich noch richtig viel Glück, denn ein Klassiker ist bereits die Suche nach "SARAHPALIN", bei der Bloggerkollege und UC Davis-Professor Jonathan Eisen als besten Treffer ein Protein aus dem Pilz Botryotinia fuckeliana erhielt!
Also, was sagen eure Namen über eure evolutionäre Verwandtschaft aus? [5]
[1] Margaret Dayhoff war eine der ersten Bioinformatikerinnen, und auf sie gehen unter anderem die PAM-Substitionsmatrix und der Ein-Buchstabencode für Proteine zurück.
[2] BLAST = Basic Local Alignment Search Tool.
[3] X steht für eine beliebige Aminosäure.
[4] Wer möchte, kann ganz unten noch die "Algorithm parameters" ausklappen, und einen Haken bei "Short queries" setzen, um bestimmte Parameter des Algorithmus für eine kurze Suchsequenz anzupassen.
[5] Notiz an alle Wahrsager und Kaffeesatzleser: Großbetrieben mittels Vanity BLASTs bei der Auswahl ihrer Mitarbeiter zu helfen ist meine Geschäftsidee, bleibt ihr bei euren Sternzeichen und Blutgruppen!
Autor: Alexander· 8 Kommentare· Permalink· Trackback-URL
Kommentar schreiben
Top5
- John Asht und die organisierte Literatur-Kriminalität im InternetAstrodicticum Simplex· 23.01.2012
- Die größte Verschwörung aller Zeiten: In Wahrheit ist die Sonne kalt und dunkel!Astrodicticum Simplex· 26.01.2012
- Ein starker Sonnensturm trifft auf die ErdeAstrodicticum Simplex· 24.01.2012
- Realität und FiktionAstrodicticum Simplex· 23.01.2012
- Franz Hörmann und die Gaskammern: vom Wissen und vom GlaubenKritisch gedacht· 27.01.2012
Top5
- John Asht und die organisierte Literatur-Kriminalität im InternetAstrodicticum Simplex· 23.01.2012
- Die größte Verschwörung aller Zeiten: In Wahrheit ist die Sonne kalt und dunkel!Astrodicticum Simplex· 26.01.2012
- Abstimmung: Kernkraft, ja, nein, ein bisschen, vielleicht doch irgendwann malPrimaklima· 26.01.2012
- Franz Hörmann und die Gaskammern: vom Wissen und vom GlaubenKritisch gedacht· 27.01.2012
- Ein starker Sonnensturm trifft auf die ErdeAstrodicticum Simplex· 24.01.2012
ScienceBlogs.com
- Saturn's Super Storm Staggers Skywatchers!More days to come New places to go I've got ...Starts With A Bang· 03.02.2012 · 21:40 Uhr
- Making excusesThe editor of Life Shu-Kun Lin has published a rationalization ...Pharyngula· 03.02.2012 · 12:05 Uhr
- PopSci Returns as Valued Festival Media Partner!Popular Science one of the leading sources of news in ...USA Science and Engineering Festival: The Blog· 03.02.2012 · 10:00 Uhr
- Placebo effects are "proof" that God exists?A couple of weeks ago I made the observation that ...Respectful Insolence· 03.02.2012 · 09:00 Uhr
- How to Teach Relativity to Your Dog: Photoshop ContestIt's now officially February and the release date for How ...Uncertain Principles· 02.02.2012 · 11:58 Uhr



Kommentare (8)
rolak·
09.03.09 · 19:01 Uhr
na ja, also doch ne linke Bazille ;)gb|AAP70296.1| VC0181-like protein [Escherichia coli] 30.3 20
SOURCE Escherichia coli
ORGANISM Escherichia coli
Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;
Enterobacteriaceae; Escherichia.
Na toll... ne Darmbazille
Wenigstens produziere ich Vitamin K :D
in meinem Namen kommen gleich 3 der nicht vergebenen Buchstaben vor... Großartig
Lasse ich die entsprechenden Buchstaben einfach weg wird das Ergebnis besser:
gb|ACD43637.1| TagB11 [Tetrathiobacter kashmirensis] 31.2 11
SOURCE Tetrathiobacter kashmirensis
ORGANISM Tetrathiobacter kashmirensis
Bacteria; Proteobacteria; Betaproteobacteria; Burkholderiales;
Alcaligenaceae; Tetrathiobacter.
ist ein "sulfur chemolithotrophic betaproteobacterium" - nett.
Be mir sind die besten Hits ne CoA-Transferase aus Salinispora und erfreulicherweise ein Transkriptionsfaktor bei Burkholderia. Über die Viecher hab ich gerade erst was gebloggt.
So ein Mist, ich brauch aber das O und das B - darf ich die Buchstaben gegen ein X eintauschen?
Halo? Halobacteriales! klingt echt super! Na dann gute Nacht!
Donnerwetter, da bekommt Herrn Sloterdijks programmatischer Namensvektor endlich mal Sinn. http://www.cicero.de/97.php?ress_id=4&item=1420
Toll wenn man JOERG heisst :(
Alexander Knoll·
10.03.09 · 13:08 Uhr
Kein Problem, die falschen Aminosäuren werden dann eh automatisch wegge-X-t! Ich weiß aber, warum du das Ergebnis nicht reingeschrieben hast, du Blutparasit ;-)Lustig! Ich wusste schon immer, dass ich mit den Wildschweinen eng verbunden bin ;)
PREDICTED: similar to FERM and PDZ domain-containing protein 2
precursor (PDZ domain-containing protein 5C) (PDZ domain-containing
protein 4) [Sus scrofa].