Shannon-Entropie

Tiffüü · Anmeldungsdatum: 18.03.2011 Beiträge: 91

kann mir jemand folgende Gleichung erklären und vorallem, wozu ich die brauch :

H=Id(N)=-Id(1/N)=-Id(p(n))

erstaunt

PaGe · Moderator Anmeldungsdatum: 19.03.2007 Beiträge: 3549 Wohnort: Hannover

Wo hast du die denn her?

Also ich habe sie trotz Bio-Diplom noch nie (bewusst) gesehen. Nach dem was auf Wiki steht, muss es irgendwie mit Neurobio verknüpft werden, da nur dort Informationen weitergegeben werden. Aber die Bedeutung grübelnd

Tiffüü · Anmeldungsdatum: 18.03.2011 Beiträge: 91

ja die hab ich aus einer Genetikvorlesung .. es geht um die Informationsübertragen

jörg · Anmeldungsdatum: 12.12.2010 Beiträge: 2107 Wohnort: Bückeburg

Das hat eher was mit Kodierungstheorie zu tun, betrifft also auch die Genetik.

Shannon hat sich -vereinfacht ausgedrückt- mit der Frage beschäftigt, wie hoch der zusätzliche Informationsgewinn ist, wenn die Anzahl der kodierenden Elemente immer grösser wird, also gegen unendlich geht.
Er fand dabei heraus, dass der Zugewinn an Informationen für jedes zusätzlich verwendete bit kleiner wird.

Je häufiger ein Zeichen auftritt, je grösser also seine Auftrittswahrscheinlichkeit ist, desto geringer ist sein Informationsgehalt.
Damit ist die informationstheoretische Entropie ein Mass für die durchschnittliche Anzahl an bits (also an/aus- Entscheidungen), die benötigt werden, um ein Zeichen aus einer Menge von Zeichen eindeutig zu identifizieren.
Sie beschreibt damit den mittleren Informationsgehalt eines Zeichens einer "Zeichenfolge", die eine Information "verschlüsselt".

Die o.g. Formel konnte ich in dem Kodierungstheoriebuch meines Bruders so nicht finden und bin damit nicht in der Lage, sie dir zu erklären.

Aber für den genetischen Code könnte das bedeuten, dass mit steigender Anzahl von aneinandergeknüpten Basen der tatsächliche Informationsgehalt nicht zunimmt, da sich die Aminosäuresequenzen irgendwann wiederholen müssten. Biologisch kann das zwar Sinn machen (z.B. wenn mehrere gleichartige Helizes als Transmembrandomänen benötigt werden), informationstheoretisch jedoch nicht, da keine neue Information übertragen wird.
Ist aber auch mehr eine Vermutung.....

Wikipedia hat dazu auch was sinnvolles zu sagen:

http://de.wikipedia.org/wiki/Entropie_%28Informationstheorie%29

Tiffüü · Anmeldungsdatum: 18.03.2011 Beiträge: 91

ja das was du sagst macht Sinn.. umso mehr Basen ich hab, umso häufiger wiederholen die sich auch und umso weniger Information kommt hinzu..

Ja und die Gleichung: weiss ich auch nicht, wo der Dozent die her hat.. ich kann nix damit anfangen, hab auch schon im Internet nachgeschaut, aber nicht viel gefunden -.-

jörg · Anmeldungsdatum: 12.12.2010 Beiträge: 2107 Wohnort: Bückeburg

Es verwenden auch manche Dozenten "ihre" eigenen Zeichen und Symbole, das ist nicht immer der internationalen Norm entsprechend.

Ich habe mir auch mal den wikipedia- Artikel durchgelesen und der Abschnitt "Interpretation" und der über das Alphabet könnten dir dabei noch inhaltliche Aufschlüsse liefern.

Versuche herauszubekommen, wofür die Symbole in der Formel stehen sollen, dann kann ich dir vielleicht weiterhelfen.....

Tiffüü · Anmeldungsdatum: 18.03.2011 Beiträge: 91

kann man das rausfinden? der Dozent hat auch nie was dazu gesagt.. die stand halt einfach im Skript drin.. ich weiss nicht, wie ich darauf kommen soll -.- meinst du, das krieg man hin`? ich glaub N ist die Anzahl der Symbole und n die Wahscheinlichkeit erstaunt

PaGe · Moderator Anmeldungsdatum: 19.03.2007 Beiträge: 3549 Wohnort: Hannover

N ist ja normalerweise die Anzahl
p idR die Häufigkeit/Wahrscheinlichkeit
Bei Id würde ich irgendwie auf Informationselemente tippen.

Tiffüü · Anmeldungsdatum: 18.03.2011 Beiträge: 91

ist H vielleicht dann das Maß, also die Entropie oder so?? und Ip(N) die Anzahl der Infos ? = - Infos(1/Anzahl) = - Wahrscheinlichkeit .. oder so erstaunt

jörg · Anmeldungsdatum: 12.12.2010 Beiträge: 2107 Wohnort: Bückeburg

Dass "H" die Entropie darstellt, scheint klar. Auch dass "p" die Wahrscheinlichkeit darstellt.

Die Anzahl der Elemente ist eher "n" als "N", womit ich mir bezüglich der Bedeutung von "Id" und "N" nicht sicher wäre....

Id würde ich sagen bedeutet "Identität"
Bei "N" bin ich mir eben nicht sicher, ob das die Kapazität des Codes sein soll?

Steht in deinem Skript denn "Id" oder I(p)??

Denn die Entropie H= {summe aller}I(p) * p, also der Informationsgehalt multipliziert mit der Auftrittswahrscheinlichkeit.

Tiffüü · Anmeldungsdatum: 18.03.2011 Beiträge: 91

also im Skript steht Id... und was kann ich mir dann unter Identität vorstellen ? Anzahl und Wahrscheinlichkeit ist mir klar, aber Identität erstaunt

jörg · Anmeldungsdatum: 12.12.2010 Beiträge: 2107 Wohnort: Bückeburg

Die Identität muss im "Verschlüsselungskonzept" gewährleistet sein, damit ein Code vom Empfänger entschlüsselt werden kann.

Ein einfaches Beispiel: Wir wollen die Menge 0, 1 und 2 abbilden, haben aber als "Verschlüsselung" nur die 0 und die 1.

Nun bilden wir die 0 auf die 0 ab und sowohl die 1 als auch die 2 auf die 1.

In der Abbildung werden jetzt aber die 0 zwar auf die 0 abgebildet, aber die 1 nur auf die 1, weil die 2 ja nicht "im Code" ist.

Für die Abbildungen 0 auf 0 und 1 auf 1 wäre Identität gewährleistet, sie verfügen in der "Entschlüsselungsfunktion" über eine eindeutige Zuordbarkeit. Die 2 jedoch taucht nicht auf, da die Entschlüsselung sie auch als eine 1 darstellen würde, weil sie ja als 1 verschlüsselt wurde.

Nun kann man mit mehreren Stellen aber sagen, wir codieren die 1 mit 01, die 0 mit 00 und die 2 mit 10. Wenn der "Empfänger" nun meinen Code erhält, kann er wieder aus der 00 eine 0 machen, aus der 01 eine 1 und aus der 10 eine 2.
Die Identität ist für alle Ziffern gewährleistet.

Die Identität heisst also, dass für die Verschlüsselung die gleichen Abbildungsvorschriften existieren wie für die Entschlüsselung, nur halt "umgekehrt".

Wie gesagt, ich habe aber keine Ahnung, ob das so gemeint ist.
Vielleicht ist mit Id auch der Informationsgehalt gemeint.....

Und nach ein wenig überlegen, muss "N" die Anzahl sein und "n" ein bestimmtes Ereignis, denn wenn p(n)= 1/N ist, wie in deiner Formel dargestellt, muss das so sein.
In Worten: Die Wahrscheinlichkeit eines Ereignisses ist gleich 1 dividiert durch die Anzahl aller möglichen Ereignisse.

Das ist jedoch das einzige, was mir in o.g. Formel nun wirklich klar ist......

Versuche herauszufinden, wofür "Id" steht.....

Nubler · Anmeldungsdatum: 08.07.2009 Beiträge: 15

sicher das der erste buchstabe n I is und kein l ?

evtl könnt ja dann Id eigentlich ld sein, ne unkonventionelle bezeichnung für den dekadischen logarithmus.

die umformung von 2->3 würde sowas implizieren

oder ld is eigentlich als l*d aufzufassen.

is sowieso seltsam, wenn da keine interpretation dabei is...

jörg · Anmeldungsdatum: 12.12.2010 Beiträge: 2107 Wohnort: Bückeburg

... na klar;

das wird "ld" heissen, so macht das ganze zumindest Sinn und ld wird dabei "logarithmus dezimalis" bedeuten und tatsächlich verhält sich der Zusammenhang ja logarithmisch, obwohl zwar eigentlich zur Basis 2, aber das ist ja mehr oder weniger eine Definitionsfrage und man kann das ja auch in Abhängigkeit von der Grösse der Zeichenmenge definieren, wobei beachtet sein muss, dass bei der Rechnung zur Basis 10 ein bit als ein Zeichen mit der Auftrittswahrscheinlichkeit 1/10 definiert würde. Nur bei Betrachtung auf der Grundlage des binären logarithmus ist ein bit als ein Zeichen mit der Auftrittswahrscheinlichkeit 1/2 definiert. Grundsätzlich gilt jedoch das Gleiche:

Je grösser die Anzahl verwendeter Zeichen, je kleiner also die Auftrittswahrscheinlichkeit eines einzelnen Zeichens, desto grösser der Informationsgehalt dieses Zeichens bzw. der Informationszuwachs pro Zeichen (siehe oben).

Unter dieser Bedingung erschliesst sich mir das nun und passt (zumindest in den Grundzügen) in die Darstellungen der mir zur Verfügung stehenden Literatur;

vielen Dank Nubler.... Wink

@tiffüü:

Dann steht dort (in Worten):
informationstheoretische Entropie= logarithmus der Anzahl der verwendbaren Elemente N = negativer logarithmus der Auftrittswahrscheinlichkeit p(n) jedes einzelnen Elementes, wobei 1/N = p(n) ist.

Nun passt das auch zu der Funktion, die du dir u.a. bei Wikipedia anschauen kannst:

http://de.wikipedia.org/w/index.php?title=Datei:Entropy_InformationInSign2.png&filetimestamp=20060914114652

Wofür du das gebrauchen kannst:
Du kannst so anhand der vorhandenen "Zeichenmenge" eines Codes auf die Entropie schliessen, also den Erwartungswert des Informationsgehaltes eines Zeichens (bei gleichmässiger Verteilung der Zeichen).
Damit ist deine Formel zwar etwas vereinfacht, erfasst aber grob den Zusammenhang.

Vergiss das mit der Identität also, das spielt für dich hier keine Rolle.....

Schau aber dennoch mal in deinen Vorlesungsunterlagen nach, auch im Vorwort oder am Ende, ob dort nicht eine Abkürzungsliste oder ähnliches verzeichnet ist, wäre nämlich wirklich komisch, wenn das nicht so wär.

Tiffüü · Anmeldungsdatum: 18.03.2011 Beiträge: 91

ja das mit dem logarithmus haut glaub ich hin.. hab geschaut erstaunt

jörg · Anmeldungsdatum: 12.12.2010 Beiträge: 2107 Wohnort: Bückeburg

...bleibt noch die Frage, ob und wenn ja mit welchem Hintergrund der logarithmus zur Basis 10 gewählt wurde.....

Ist das denn ansonsten einigermassen klar geworden?