Das Gesetz von Zipf

Das Gesetz von Zipf , ein empirisches Gesetz das formulierte Verwenden mathematischer Statistik, bezieht sich auf die Tatsache, dass vielen Typen von in den physischen und Sozialwissenschaften studierten Daten mit einem Vertrieb von Zipfian, einer einer Familie des zusammenhängenden getrennten Macht-Gesetzwahrscheinlichkeitsvertriebs näher gekommen werden kann. Das Gesetz wird nach dem Linguisten George Kingsley Zipf genannt, der es zuerst (Zipf 1935, 1949) vorgeschlagen hat, obwohl Jean-Baptiste Estoup scheint, die Regelmäßigkeit vor Zipf bemerkt zu haben.

Motivation

Das Gesetz von Zipf stellt fest, dass gegeben ein Korpus von Äußerungen der natürlichen Sprache, die Frequenz jedes Wortes zu seiner Reihe im Frequenztisch umgekehrt proportional ist. So wird das häufigste Wort etwa zweimal so häufig vorkommen wie das zweite häufigste Wort, dreimal so häufig wie das dritte häufigste Wort usw. Zum Beispiel, im Braunen Korpus, das Wort des am häufigsten vorkommenden Wortes zu sein, und ist allein für fast 7 % aller Wortereignisse (69,971 aus ein bisschen der mehr als 1 Million) verantwortlich. Wahr zum Gesetz von Zipf, dem Wort des zweiten Platzes von Rechnungen ein bisschen für mehr als 3.5 % von Wörtern (36,411 Ereignisse), gefolgt von "und" (28,852). Nur 135 Vokabular-Sachen sind erforderlich, um für Hälfte des Braunen Korpus verantwortlich zu sein.

Dieselbe Beziehung kommt in vielen anderen Rangordnungen vor, die zur Sprache, wie die Bevölkerungsreihen von Städten in verschiedenen Ländern, Vereinigungsgrößen, Einkommen-Rangordnungen und so weiter ohne Beziehung sind. Das Äußere des Vertriebs in Rangordnungen von Städten durch die Bevölkerung wurde zuerst von Felix Auerbach 1913 bemerkt. Empirisch kann eine Datei geprüft werden, um zu sehen, ob das Gesetz von Zipf durch das Laufen des Klotz-R des rückwärts Gehens = - b gilt, loggen n, wo R die Reihe der Gegebenheit ist, ist n sein Wert und a, und b sind Konstanten. Das Gesetz von Zipf gilt wenn b = 1. Wenn dieses rückwärts Gehen auf Städte angewandt wird, ist ein besserer passender mit b = 1.07 gefunden worden. Während das Gesetz von Zipf für den oberen Schwanz des Vertriebs hält, ist der komplette Vertrieb von Städten Lognormal- und folgt dem Gesetz von Gibrat. Beide Gesetze entsprechen, weil ein Lognormalschwanz normalerweise von einem Schwanz von Pareto (Zipf) nicht bemerkenswert sein kann.

Theoretische Rezension

Das Gesetz von Zipf wird durch das Plotten der Daten auf einem Graphen des Klotz-Klotzes mit den Äxten am leichtesten beobachtet, die Klotz (Reihe-Ordnung) und Klotz (Frequenz) sind. Zum Beispiel würde das Wort (wie beschrieben, oben) an x = Klotz (1), y = Klotz (69971) erscheinen. Die Daten passen sich dem Gesetz von Zipf im Ausmaß an, dass der Anschlag geradlinig ist.

Lassen Sie formell:

  • N, die Zahl der Elemente sein;
  • k, ihre Reihe sein;
  • s, der Wert der Hochzahl sein, die den Vertrieb charakterisiert.

Das Gesetz von Zipf sagt dann das aus einer Bevölkerung von N Elementen, der Frequenz von Elementen der Reihe k, f voraus (k; s ist N):

:

Das Gesetz von Zipf hält, ob die Zahl von Ereignissen jedes Elements unabhängig ist und identisch zufällige Variablen mit dem Macht-Gesetzvertrieb verteilt

hat

Im Beispiel der Frequenz von Wörtern auf der englischen Sprache ist N die Zahl von Wörtern auf der englischen Sprache und, wenn wir die klassische Version des Gesetzes von Zipf verwenden, ist die Hochzahl s 1. f (k; s, wird dann N) der Bruchteil der Zeit sein das kth allgemeinste Wort kommt vor.

Das Gesetz kann auch geschrieben werden:

:

wo H die N-te verallgemeinerte harmonische Zahl ist.

Der einfachste Fall des Gesetzes von Zipf ist " Funktion". In Anbetracht verteilter Frequenzen dem einer Reihe von Zipfian, die vom allgemeinsten bis am wenigsten allgemeinen sortiert sind, wird die zweite allgemeinste Frequenz ½ so häufig vorkommen wie das erste. Die dritte allgemeinste Frequenz wird ⅓ so häufig vorkommen wie das erste. Die n allgemeinste Frequenz wird  so häufig vorkommen wie das erste. Jedoch kann das nicht genau halten, weil Sachen eine Zahl der ganzen Zahl von Zeiten vorkommen müssen; es kann nicht 2.5 Ereignisse eines Wortes geben. Dennoch, über ziemlich breite Reihen, und zu einer ziemlich guten Annäherung, folgen viele natürliche Phänomene dem Gesetz von Zipf.

Mathematisch ist die Summe aller Verhältnisfrequenzen in einem Vertrieb von Zipf der harmonischen Reihe und deshalb gleich:

:

Auf menschlichen Sprachen haben Wortfrequenzen einen Vertrieb sehr mit dem schweren Schwanz, und können deshalb vernünftig gut durch einen Vertrieb von Zipf mit einem s in der Nähe von 1 modelliert werden.

So lange die Hochzahl geht s 1 zu weit, es ist für solch ein Gesetz möglich, mit ungeheuer vielen Wörtern, seitdem wenn s> 1 dann zu halten

:

wo ζ die Zeta-Funktion von Riemann ist.

Statistische Erklärung

Es ist nicht bekannt, warum das Gesetz von Zipf für die meisten Sprachen hält. Jedoch kann es durch die statistische Analyse von zufällig erzeugten Texten teilweise erklärt werden. Wentian Li hat gezeigt, dass in einem Dokument, in dem jeder Charakter zufällig aus einer Rechteckverteilung aller Briefe (plus ein Raumcharakter) gewählt worden ist, die "Wörter" der allgemeinen Tendenz des Gesetzes von Zipf folgen (ungefähr geradlinig auf dem Anschlag des Klotz-Klotzes scheinend). Vitold Belevitch in einer Zeitung, Auf den Statistischen Gesetzen des Sprachvertriebs hat eine mathematische Abstammung angeboten. Er hat eine große Klasse des wohl erzogenen statistischen Vertriebs (nicht nur die Normalverteilung) genommen und hat sie in Bezug auf die Reihe ausgedrückt. Er hat dann jeden Ausdruck in eine Reihe von Taylor ausgebreitet. In jedem Fall hat Belevitch das bemerkenswerte Ergebnis erhalten, dass eine Stutzung der ersten Ordnung der Reihe auf das Gesetz von Zipf hinausgelaufen ist. Weiter ist eine Stutzung der zweiten Ordnung der Reihe von Taylor auf das Gesetz von Mandelbrot hinausgelaufen.

Zipf selbst hat vorgeschlagen, dass weder Sprecher noch Zuhörer, die eine gegebene Sprache verwenden, etwas härter arbeiten wollen als notwendig, um das Verstehen zu erreichen, und der Prozess, der ungefähr auf gleichen Vertrieb der Anstrengung hinausläuft, zum beobachteten Vertrieb von Zipf führt.

Zusammenhängende Gesetze

Das Gesetz von Zipf bezieht sich jetzt mehr allgemein auf den Frequenzvertrieb von "Reihe-Daten,", in dem die Verhältnisfrequenz des n-t aufgereihten Artikels durch den Vertrieb von Zeta, 1 / ( (s)) gegeben wird, wo der Parameter s> 1 die Mitglieder dieser Familie des Wahrscheinlichkeitsvertriebs mit einem Inhaltsverzeichnis versieht. Tatsächlich ist das Gesetz von Zipf manchmal mit "zeta Vertrieb synonymisch," da Wahrscheinlichkeitsvertrieb manchmal "Gesetze" genannt wird. Dieser Vertrieb wird manchmal den Vertrieb von Zipfian oder Yule genannt.

Eine Generalisation des Gesetzes von Zipf ist das Zipf-Mandelbrot Gesetz, das von Benoît Mandelbrot vorgeschlagen ist, dessen Frequenzen sind:

:

Die "Konstante" ist das Gegenstück der an s bewerteten Funktion von Hurwitz zeta.

Vertrieb von Zipfian kann beim Vertrieb von Pareto durch einen Austausch von Variablen erhalten werden.

Der Zipf Vertrieb wird manchmal den getrennten Vertrieb von Pareto genannt, weil es dem dauernden Vertrieb von Pareto ebenso analog ist, dass die getrennte Rechteckverteilung der dauernden Rechteckverteilung analog ist.

Die Schwanz-Frequenzen des Vertriebs des Weihnachtsfestes-Simon sind ungefähr

:

für jede Wahl von ρ> 0.

Im parabolischen fractal Vertrieb ist der Logarithmus der Frequenz ein quadratisches Polynom des Logarithmus der Reihe. Das kann das passende über eine einfache mit der Machtgesetzbeziehung deutlich verbessern. Wie fractal Dimension ist es möglich, Dimension von Zipf zu berechnen, die ein nützlicher Parameter in der Analyse von Texten ist.

Es ist behauptet worden, dass das Gesetz von Benford ein spezieller begrenzter Fall des Gesetzes von Zipf mit der Verbindung zwischen diesen zwei Gesetzen ist, die durch ihr erklären werden sowohl aus der Skala invariant funktionelle Beziehungen von der statistischen Physik als auch den kritischen Phänomenen entstehen. Die Verhältnisse von Wahrscheinlichkeiten im Gesetz von Benford sind nicht unveränderlich.

Der Vertrieb von Zipf wird auch angewandt, um den auftauchenden Wert vernetzter Systeme zu schätzen, und auch Dienst hat Umgebungen orientiert.

Siehe auch

Weiterführende Literatur

Primär:

  • George K. Zipf (1949) menschliches Verhalten und der Grundsatz von kleinster Anstrengung. Addison-Wesley.
  • George K. Zipf (1935) Der Psychobiology der Sprache. Houghton-Mifflin. (sieh Zitate an http://citeseer.ist.psu.edu/context/64879/0)

Sekundär:

  • Lada Adamic. Zipf, Macht-Gesetze und Pareto - ein sich aufreihender Tutorenkurs.
http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html
  • Alexander Gelbukh und Grigori Sidorov (2001) "Zipf und Gesetzkoeffizienten von Heaps Hängen von Sprache Ab". Proc. CICLing-2001, Konferenz für die Intelligente Textverarbeitung und Linguistische Datenverarbeitung, am 18-24 Februar 2001, Mexiko City. Vortrag-Zeichen in der Informatik N 2004, ISSN 0302-9743, internationale Standardbuchnummer 3-540-41687-0, Springer-Verlag: 332-335.
  • Damián H. Zanette (2006) "das Gesetz von Zipf und die Entwicklung des Musikzusammenhangs," Musicae Scientiae 10: 3-18.
  • Kali R. (2003) "Die Stadt als ein riesiger Bestandteil: Ein zufälliger Graph nähert sich dem Gesetz von Zipf," Angewandte Wirtschaftbriefe 10: 717-720 (4)

Links


Vetulicolia / E Zahl
Impressum & Datenschutz