Geradliniger classifier

Im Feld des Maschinenlernens ist die Absicht der statistischen Klassifikation, Eigenschaften eines Gegenstands zu verwenden, um sich zu identifizieren, welcher Klasse (oder Gruppe) es gehört. Ein geradliniger classifier erreicht das durch das Treffen einer Klassifikationsentscheidung, die auf dem Wert einer geradlinigen Kombination der Eigenschaften gestützt ist. Eigenschaften eines Gegenstands sind auch bekannt als zeigen Werte und werden normalerweise der Maschine in einem Vektoren genannt einen Eigenschaft-Vektoren präsentiert.

Definition

(Grüner) H3 scheitert, die Punkte richtig zu klassifizieren.]]

Wenn der Eingangseigenschaft-Vektor zum classifier ein echter Vektor ist, dann ist die Produktionskerbe

:

wo ein echter Vektor von Gewichten ist und f eine Funktion ist, die das Punktprodukt der zwei Vektoren in die gewünschte Produktion umwandelt. (Mit anderen Worten, ist eine eine Form oder auf R. geradlinig funktionell kartografisch darzustellen), Der Gewicht-Vektor wird von einer Reihe von etikettierten Lehrproben erfahren. Häufig ist f eine einfache Funktion, die alle Werte über einer bestimmten Schwelle zur ersten Klasse und alle anderen Werte zur zweiten Klasse kartografisch darstellt. Ein komplizierterer f könnte die Wahrscheinlichkeit geben, dass ein Artikel einer bestimmten Klasse gehört.

Für ein Zwei-Klassen-Klassifikationsproblem kann man sich die Operation eines geradlinigen classifier als das Aufspalten eines hoch-dimensionalen Eingangsraums mit einem Hyperflugzeug vergegenwärtigen: Alle Punkte auf einer Seite des Hyperflugzeugs werden als "ja" klassifiziert, während andere als "nein" klassifiziert werden.

Ein geradliniger classifier wird häufig in Situationen verwendet, wo die Geschwindigkeit der Klassifikation ein Problem ist, da es häufig der schnellste classifier besonders ist, wenn spärlich ist. Jedoch können Entscheidungsbäume schneller sein. Außerdem arbeiten geradlinige classifiers häufig sehr gut, wenn die Zahl von Dimensionen darin, als in der Dokumentenklassifikation groß ist, wo jedes Element darin normalerweise die Zahl von Ereignissen eines Wortes in einem Dokument ist (sieh Dokumentenbegriff-Matrix). In solchen Fällen sollte der classifier gut normalisiert werden.

Generative Modelle gegen unterscheidende Modelle

Es gibt zwei breite Klassen von Methoden, für die Rahmen eines geradlinigen classifier zu bestimmen. Methoden des Modells der ersten Klasse bedingte Dichte-Funktionen. Beispiele solcher Algorithmen schließen ein:

  • Geradlinige Diskriminanten-Analyse (oder der geradlinige discriminant von Fisher) (LDA) — nehmen Gaussian bedingte Dichte-Modelle an
  • Naiver Bayes classifier — nimmt unabhängige binomische bedingte Dichte-Modelle an.

Der zweite Satz von Methoden schließt unterscheidende Modelle ein, die versuchen, die Qualität der Produktion auf einem Lehrsatz zu maximieren. Zusätzliche Begriffe in der Lehrkostenfunktion können regularization des Endmodells leicht durchführen. Beispiele der unterscheidenden Ausbildung von geradlinigem classifiers schließen ein

  • Logistisches rückwärts Gehen — maximale Wahrscheinlichkeitsbewertung des Annehmens, dass der beobachtete Lehrsatz durch ein binomisches Modell erzeugt wurde, das von der Produktion des classifier abhängt.
  • Perceptron — ein Algorithmus, der versucht, alle in der Ausbildung gestoßenen Fehler zu befestigen, hat gesetzt
  • Unterstützungsvektor-Maschine — ein Algorithmus, der den Rand zwischen dem Entscheidungshyperflugzeug und den Beispielen im Lehrsatz maximiert.

Zeichen: Trotz seines Namens gehört LDA der Klasse von unterscheidenden Modellen in dieser Taxonomie nicht. Jedoch hat sein Name Sinn, wenn wir LDA mit dem anderen dimensionality geradlinigen Hauptverminderungsalgorithmus vergleichen: Principal Components Analysis (PCA). LDA ist ein beaufsichtigter Lernalgorithmus, der die Etiketten der Daten verwertet, während PCA ein unbeaufsichtigter Lernalgorithmus ist, der die Etiketten ignoriert. Um zusammenzufassen, ist der Name ein historisches Kunsterzeugnis (sieh p. 117).

Unterscheidende Ausbildung gibt häufig höhere Genauigkeit nach als das Modellieren der bedingten Dichte-Funktionen. Jedoch ist das Berühren fehlender Daten häufig mit bedingten Dichte-Modellen leichter.

Alle geradlinigen classifier Algorithmen, die oben verzeichnet sind, können in nichtlineare Algorithmen umgewandelt werden, die auf einem verschiedenen Eingangsraum mit dem Kerntrick funktionieren.

Siehe auch

Zeichen

Siehe auch:

  1. Y. Yang, X. Liu, "Eine Nachprüfung der Textkategorisierung", Proc. ACM SIGIR Konferenz, Seiten 42-49, (1999). Papier citeseer
  2. R. Herbrich, "das Lernen von Kernclassifiers: Theorie und Algorithmen," MIT-Presse, (2001). Internationale Standardbuchnummer 0 262 08306 X

Ingham, Norfolk / Algebraische ganze Zahl
Impressum & Datenschutz