blast

katrin12 · Gast

Meine Frage:
Hi leute!
ich hab da mal ein paar generelle fragen zu blast. und zwar was sind eigentlich erstmal hits? die alignments am ende?
dann ich hab blast so verstanden dass man eine ausgangssequenz hat die man gegen datenbankensequenzen vergleichen möchte. dazu wird ausganssequenz in kurze stücke zerlegt und dann geguckt ob diese kurzen stücke in datenbanksequenzen vorkommen. die übereinstimmungen werden dann verlängert. stimmt das bezüglich des blast-algorithmus erstmal so?
und dann würde ich auch gerne wissen wann ein guter/schlechter hit vorliegt. das hängt doch vom E-value ab oder? je kleiner desto besser das alignment richtig? aber wo kann man da ne grenze ziehen also ab wann ist das alignment schlecht bzw. gut?

Meine Ideen:
ich wäre euch für sehr schnelle hilfe sehr dankbar!!!
LG katrin

Firelion · Anmeldungsdatum: 27.08.2009 Beiträge: 1878

Hi,

also hits sind deine Treffer. Das meint die Alignments die den eingestellten Werten genügen. Es gibt vielleicht noch andere Alignments die aber nicht angezeigt werden, weil deren Signifikanz zu gering ist.

Genau: Blast zerlegt dir deine Eingabesequenz in ,,Wörter" unterschiedlicher Länge (je nachdem ob du Nukleotide oder Aminosäuren hast). Von jedem Wort dieser Liste generiert er alle Alingnments die einen bestimmten Score haben. Mit dieser Liste wird dann die Datenbank abgesucht.

Zunächst einmal findet blast nur lokale gap freie Alignments die dann verlängert werden bis ein gewisser Score unterschritten wird, Neuere blast Anwendungen machen dann mit den Trefffern oder dem Treffer mit Dem höchsten Score noch ein Alignments mit gaps. Trotzdem muss das beste gefundene Alignment nicht das beste insgesamt sein, da du Fehler bei einem greedy alogrithm wie blast nicht mehr korrigieren kannst.

Nun zu den statistischen Werten:
Zunäöchst einmal hast dfu deinen Score. Dieser errechnet sich aus den identischen ,, Buchstaben" der penalty für mismatches (hängt von der Matrix ab), der gap open penalty und der gap extension penalty. Dieser Wert sagt dir wie gut es " passt".

Die Scorewerte rein zufällig verteilter Hits folgen einer Gaussverteilung. Du willst jetzt aber wissen, ob dein Scorewert signifikant ist oder nur ein zufälliger Hit sein könnte. Dafür lässt du dir den p- Wert ausrevhnen. Dieser gibt dir die Wahrscheinlichkeit an, dass dein Treffer nur Zufall war. Dem zufolge hat ein gutes Alignment erinen niedrigen p- Wert. Meiat wählt masn das 95% Konfidenzintervall aus, will also höchstens in 5 prozent der Fälle ein falsch signifikantes Ergebnis haben d.h. p<0.05 wird alös signifikanz erachtet alles darüber nicht.

Der E- Value ist eine Funktion des p_ wertes und sollte also auch möglichsdt klein sein. Irgendwas hoch - etwas ist schön .

LG Firelion

katrin12 · Gast

schon mal vielen danke das hat mir echt geholfen! eine sache hab ich da noch. ich arbeite online mit blast da gibts so eine seite. aber irgendwie komm ich damit nicht richtig klar vllt könntest du mir da nochmal helfen. smile

und zwar hab ich ne sequenz aus aminosäuren und soll diese jetzt mit einer dna-sequenz der biene vergleichen. wo schreib ich denn rein dass es ne biene sein soll? und wann und wie (allgemein) muss ich die parameter also matric usw. ändern?

Firelion · Anmeldungsdatum: 27.08.2009 Beiträge: 1878

Ok. Ich schätze mal du meinst die NCBI Seite ?
Du hast jetzt ein Protein als Suchanfrage , willst aber in einer Nukleotiddatenbank danach such. Das musst bnei der Auswahl des Programmes beachten: du kannst hier weder blastp noch blast n nehmen, sondern brauchst tblastn. Dieses wählst dub auf der Seite aus, dann kopierst du deine Sequenz im FASTA Format in das Suchfenster odferb lädst die Datei hoch. Die muss aber im FASTA Format sein.

Dann wählst du weiter unten unter Choose Search Set
Database Organism deine Biene aus (ich kenne da net die Taxonomy id und weiß auch nicht was Biene auf schlau heißt- das müsstest du rausfinden.)
Dann musst du nur noch auf BLAST klicken und dann sollte es laufen.

katrin12 · Gast

also die algorith parameter spielen keine rolle? die lässt man einfach so?

und dann noch eins. wo liegen denn die grenzen beim e-value? also ab wann gilt ein hit als schlecht ab welchen wert?

Firelion · Anmeldungsdatum: 27.08.2009 Beiträge: 1878

Das mit dem p- Wert und E- wert beurteilt jeder anders. Da gibt es keine feste Regel. Ich würde erstmal die eingestellten Parameter so lassen ...

katrin12 · Gast

wieso kann man eigentlich eine proteinsequenz (query) mit einer DNA-sequenz (DAtenbank) vergleichen? Proteinsequenz besteht doch aus Aminosäuren und DNA-Sequenz aus Nukleotiden...

PaGe · Moderator Anmeldungsdatum: 19.03.2007 Beiträge: 3549 Wohnort: Hannover

DNA kannst du doch in ein Protein übersetzen.