Das Zipfsche Gesetz – was ist das denn?!

Das Zipfsche Gesetz – was ist das denn?!

Der amerikanische Psychologe und Linguist George Kingsley Zipf entwickelte in den 1930er Jahren ein Modell zur Beschreibung von Worthäufigkeiten und Verteilungswahrscheinlichkeiten in Texten. Das Ganze gilt als Beginn der sogenannten quantitativen Linguistik – ja, auch an Worten finden Mathematiker ihren Spaß. Aus dem Modell leitet sich das Zipfsche Gesetz ab, das auch heute noch für Diskussionsstoff in den Sprachwissenschaften sorgt, denn es hat nichts von seiner Relevanz eingebüßt. In weiteren Disziplinen wie etwa der Demografie spielt die sogenannte Zipf-Verteilung ebenfalls eine nicht unbedeutende Rolle – da hat Zipf also ganze Arbeit geleistet.

Zipfsches Gesetz: Worum geht es?

Zipf erkannte, dass bestimmte Wörter in einem Text deutlich häufiger vorkommen als andere. So gilt beispielsweise für die meisten Sprachen, dass ein Wort umso seltener auftritt, je länger es ist.

Beispiel gefällig? Dieser Text umfasst 575 Wörter, 15 Mal kommt das Wort „das“ (mit einem s) vor, die langen Worte „Häufigkeitsverteilung“ und „Verteilungswahrscheinlichkeiten“ hingegen tauchen nur einmal auf (bzw. zwei Mal, weil wir sie hier im Beispiel erwähnen).

So ordnet man also alle Wörter ihrer Häufigkeit nach und gibt ihnen einen Rang. Das häufigste Wort hat Rang 1, das nächste Rang 2 und so weiter. Die Wahrscheinlichkeit des Auftretens verhält sich dann umgekehrt proportional zu ihrer Platzierung innerhalb der Rangfolge. Auf eine einfache Formel gebracht: Mit der entstehenden Zipf-Verteilung lässt sich exakt beschreiben, dass das Wort auf Position zwei der Rangfolge durchschnittlich nur halb so oft im Textkorpus vorkommt wie das Wort, das an erster Stelle steht. Für das Wort auf Position drei gilt, dass sein Häufigkeitsanteil bei circa einem Drittel des ranghöchsten Wortes liegt und so weiter. Faszinierend, oder? (Zumindest für alle Mathematiker unter uns)

Das falsche Zipfsche Gesetz

Hierbei handelt es sich um die linguistische Beobachtung, wonach bei der Anwendung von Sprache meistens Sparsamkeit im Mittelpunkt steht. Jeder Sprecher sucht beim Sprechen den Kompromiss zwischen zwei Dingen: Er möchte (inhaltlich) so viel wie möglich sagen, dabei aber so wenig Energie wie möglich aufbringen. Er unterliegt also zum einen dem Wunsch, Informationen so verständlich wie nur möglich zu vermitteln, was häufig zu einer ausführlichen Schilderung führt. Zum anderen gilt es als natürliches Bestreben, nicht zu viel geistige und physische Energie beim Sprechen aufzuwenden. Zipf hat eine ganze Reihe linguistischer Hypothesen aufgestellt und diese als Gesetze formuliert – dieses hier jedoch nicht. Es ist dennoch unter dem Namen „Falsches Zipfsches Gesetz“ bekannt.

Zipf-Verteilung und Rangfolge der Großstädte

Zipfs Bedeutung geht weit über die Linguistik hinaus. So lässt sich das Zipfsche Gesetz auf viele Gebiete übertragen. Betrachtet man zum Beispiel US-amerikanische Großstädte, so zeigen die Einwohnerzahlen eine deutliche Zipf-Verteilung. Gleiches gilt für die Größenverhältnisse deutscher Städte. Berlin stand im Jahre 1999 mit rund 3.341.000 Einwohner auf dem ersten Rang. Auf Platz zwei folgte Hamburg mit 1.705.000 Bewohnern, also fast genau die Hälfte der Einwohnerzahl Berlins. München verfügte über 1.195.000 Einwohner, was etwa einem Drittel der erstplatzierten Bundeshauptstadt entspricht. Auf Rang vier und fünf lagen Köln mit 963.000 und Frankfurt mit 644.000 Einwohnern, somit jeweils ein Viertel und ein Fünftel der Bevölkerungszahl, die Berlin aufwies.

Wo wirkt die Zipf-Verteilung außerdem?

Es gibt darüber hinaus zahlreiche andere Phänomene wie etwa biologische, physikalische oder gesellschaftliche, die dem Zipfschen Gesetz gehorchen und eine Zipf-Verteilung bilden. Dazu gehören unter anderem die Häufigkeitsverteilung von Waldbränden und Erdbeben, Fluktuationen auf den Finanzmärkten oder auch die Größe von Unternehmen. Welche Mechanismen Zipfs Gesetz allerdings zugrunde liegen, ist bisher nur teilweise geklärt.

Also machen wir uns jetzt alle fleißig ans Wörter zählen, oder? 😉