Muster-Anerkennung

Im Maschinenlernen ist Muster-Anerkennung die Anweisung eines Etiketts zu einem gegebenen Eingangswert. Ein Beispiel der Muster-Anerkennung ist Klassifikation, die versucht, jeden Eingangswert einem eines gegebenen Satzes von Klassen zuzuteilen (zum Beispiel, bestimmen Sie, ob eine gegebene E-Mail "spam" oder "non-spam" ist). Jedoch ist Muster-Anerkennung ein allgemeineres Problem, das andere Typen der Produktion ebenso umfasst. Andere Beispiele sind rückwärts Gehen, das eine reellwertige Produktion jedem Eingang zuteilt; das Folge-Beschriften, das eine Klasse jedem Mitglied einer Folge von Werten zuteilt (zum Beispiel, markierende Wortart, der eine Wortart jedem Wort in einem Eingangssatz zuteilt); und Syntaxanalyse, die einen Syntaxanalyse-Baum einem Eingangssatz zuteilt, die syntaktische Struktur des Satzes beschreibend.

Muster-Anerkennungsalgorithmen haben allgemein zum Ziel, eine angemessene Antwort für alle möglichen Eingänge zur Verfügung zu stellen und "das krause" Zusammenbringen von Eingängen zu tun. Das ist dem Muster entgegengesetzt, das Algorithmen vergleicht, die nach genauen Matchs im Eingang mit vorher existierenden Mustern suchen. Ein allgemeines Beispiel eines Muster vergleichenden Algorithmus ist das regelmäßige Ausdruck-Zusammenbringen, das nach Mustern einer gegebenen Sorte in Textdaten sucht und in die Suchfähigkeiten zu vielen Textaufbereitern und Textverarbeitungsprogrammen eingeschlossen wird. Im Gegensatz zur Muster-Anerkennung wird Muster, das zusammenpasst, allgemein als kein Typ des Maschinenlernens betrachtet, obwohl Muster vergleichende Algorithmen (besonders mit ziemlich allgemeinen, sorgfältig maßgeschneiderten Mustern) manchmal schaffen können, Produktion der ähnlichen Qualität der durch Algorithmen der Muster-Anerkennung zur Verfügung gestellten Sorte zur Verfügung zu stellen.

Muster-Anerkennung wird in vielen Feldern, einschließlich Psychologie, Psychiatrie, Ethologie, Erkenntnistheorie, Verkehrsflusses und Informatik studiert.

Übersicht

Muster-Anerkennung wird allgemein gemäß dem Typ kategorisiert zu erfahren, dass Verfahren gepflegt hat, den Produktionswert zu erzeugen. Das beaufsichtigte Lernen nimmt an, dass eine Reihe von Lehrdaten (der Lehrsatz) zur Verfügung gestellt worden ist, aus einer Reihe von Beispielen bestehend, die mit der Hand mit der richtigen Produktion richtig etikettiert worden sind. Ein Lernverfahren erzeugt dann ein Modell, das versucht, zwei manchmal widerstreitende Ziele zu entsprechen: Leisten Sie sowie möglich auf den Lehrdaten, und verallgemeinern Sie sowie möglich zu neuen Daten (gewöhnlich, das bedeutet, so einfach zu sein, wie möglich, für eine technische Definition von "einfachen", in Übereinstimmung mit dem Rasiermesser von Occam). Das unbeaufsichtigte Lernen nimmt andererseits Lehrdaten an, der nicht handetikettiert worden ist und versucht, innewohnende Muster in den Daten zu finden, die dann verwendet werden können, um den richtigen Produktionswert für neue Datenbeispiele zu bestimmen. Eine Kombination der zwei, die kürzlich erforscht worden ist, wird halbbeaufsichtigt erfahrend, der eine Kombination von etikettierten und unetikettierten Daten (normalerweise ein kleiner Satz von etikettierten Daten verwendet, die mit einem großen Betrag von unetikettierten Daten verbunden sind). Bemerken Sie, dass in Fällen des unbeaufsichtigten Lernens es keine Lehrdaten überhaupt geben kann, um davon zu sprechen; mit anderen Worten sind die zu etikettierenden Daten die Lehrdaten.

Bemerken Sie, dass manchmal verschiedene Begriffe gebraucht werden, um die entsprechenden beaufsichtigten und unbeaufsichtigten Lernverfahren für denselben Typ der Produktion zu beschreiben. Zum Beispiel ist die unbeaufsichtigte Entsprechung von der Klassifikation normalerweise als das Sammeln bekannt, das auf der allgemeinen Wahrnehmung der Aufgabe als einschließend keine Lehrdaten gestützt ist, um von, und davon zu sprechen, die Eingangsdaten in Trauben zu gruppieren, die auf einem innewohnenden Ähnlichkeitsmaß (z.B die Entfernung zwischen Beispielen gestützt sind, betrachtet als Vektoren in einem mehrdimensionalen Vektorraum), anstatt jedes Eingangsbeispiel in eine von einer Reihe von vorherbestimmten Klassen zuzuteilen. Bemerken Sie auch, dass in einigen Feldern die Fachsprache verschieden ist: Zum Beispiel, in der Gemeinschaftsökologie, wird der Begriff "Klassifikation" gebraucht, um sich darauf zu beziehen, was als "das Sammeln" allgemein bekannt ist.

Das Stück von Eingangsdaten, für die ein Produktionswert erzeugt wird, wird ein Beispiel formell genannt. Das Beispiel wird durch einen Vektoren von Eigenschaften formell beschrieben, die zusammen eine Beschreibung aller bekannten Eigenschaften des Beispiels einsetzen. (Diese Eigenschaft-Vektoren können als das Definieren von Punkten in einem passenden mehrdimensionalen Raum gesehen werden, und Methoden, um Vektoren in Vektorräumen zu manipulieren, können auf sie, wie Computerwissenschaft des Punktproduktes oder des Winkels zwischen zwei Vektoren entsprechend angewandt werden.) Gewöhnlich zeigt sind entweder kategorisch (auch bekannt als nominell, d. h. aus einer von einer Reihe nicht eingeordneter Sachen, wie ein Geschlecht "des Mannes" oder "der Frau" oder einer Blutgruppe, "B", "AB" oder "O" bestehend), Ordnungs-(aus einer von einer Reihe von bestellten Sachen z.B bestehend," groß", "mittler" oder "klein"), auf die ganze Zahl geschätzt (z.B eine Zählung der Zahl von Ereignissen eines besonderen Wortes in einer E-Mail) oder reellwertig (z.B ein Maß des Blutdrucks). Häufig werden kategorische und Ordnungsdaten zusammen gruppiert; ebenfalls für auf die ganze Zahl geschätzte und reellwertige Daten. Außerdem arbeiten viele Algorithmen nur in Bezug auf kategorische Daten und verlangen, dass reellwertige oder auf die ganze Zahl geschätzte Daten discretized in Gruppen (z.B weniger als 5, zwischen 5 und 10, oder größer sind als 10).

Viele allgemeine Muster-Anerkennungsalgorithmen sind probabilistic in der Natur, darin verwenden sie statistische Schlussfolgerung, um das beste Etikett für ein gegebenes Beispiel zu finden. Verschieden von anderen Algorithmen, der einfach Produktion ein "bestes" Etikett, oftmals probabilistic Algorithmen auch Produktion eine Wahrscheinlichkeit des Beispiels, das durch das gegebene Etikett wird beschreibt. Außerdem etikettiert viele probabilistic Algorithmus-Produktion eine Liste des N-best mit verbundenen Wahrscheinlichkeiten für einen Wert von N statt einfach eines einzelnen besten Etiketts. Wenn die Zahl von möglichen Etiketten (z.B im Fall von der Klassifikation) ziemlich klein ist, kann N gesetzt werden, so dass die Wahrscheinlichkeit aller möglichen Etiketten Produktion ist. Algorithmen von Probabilistic sind im Vorteil gegenüber non-probabilistic Algorithmen:

  • Sie Produktion ein Vertrauenswert haben mit ihrer Wahl verkehrt. (Bemerken Sie, dass einige andere Algorithmen können, sind auch Produktionsvertrauenswerte, aber im Allgemeinen, nur für probabilistic Algorithmen dieser in der Wahrscheinlichkeitstheorie mathematisch niedergelegte Wert. Non-probabilistic Vertrauenswerte können im Allgemeinen keine spezifische Bedeutung gegeben, und nur verwendet werden, um sich gegen andere Vertrauenswertproduktion durch denselben Algorithmus zu vergleichen.)
  • Entsprechend können sie sich enthalten, wenn das Vertrauen, jede besondere Produktion zu wählen, zu niedrig ist.
  • Wegen der Wahrscheinlichkeitsproduktion, probabilistic Algorithmen der Muster-Anerkennung kann in größere maschinenerfahrende Aufgaben in einem Weg effektiver vereinigt werden, der teilweise oder völlig das Problem der Fehlerfortpflanzung vermeidet.

Techniken, um die rohen Eigenschaft-Vektoren umzugestalten, werden manchmal vor der Anwendung des Muster vergleichenden Algorithmus verwendet. Zum Beispiel versuchen Eigenschaft-Förderungsalgorithmen, einen großen-dimensionality Eigenschaft-Vektoren in einen kleineren-dimensionality Vektoren zu reduzieren, der leichter ist, damit zu arbeiten, und weniger Überfülle mit mathematischen Techniken wie Hauptteilanalyse (PCA) verschlüsselt. Eigenschaft-Auswahl-Algorithmen, versuchen Sie, überflüssige oder irrelevante Eigenschaften direkt zu beschneiden. Die Unterscheidung zwischen den zwei ist, dass die resultierenden Eigenschaften nach der Eigenschaft-Förderung stattgefunden haben, sind einer verschiedenen Sorte als die ursprünglichen Eigenschaften und kann nicht interpretable leicht sein, während die nach der Eigenschaft-Auswahl verlassenen Eigenschaften einfach eine Teilmenge der ursprünglichen Eigenschaften sind.

Problem-Behauptung (beaufsichtigte Version)

Formell kann das Problem der beaufsichtigten Muster-Anerkennung wie folgt festgesetzt werden: In Anbetracht einer unbekannten Funktion (die Boden-Wahrheit), der Eingangsbeispiele zu Produktionsetiketten zusammen mit Lehrdaten kartografisch darstellt, die angenommen sind, genaue Beispiele zu vertreten, kartografisch darzustellen, erzeugen eine Funktion, die so nah näher kommt wie möglich richtig kartografisch darzustellen. (Zum Beispiel, wenn das Problem spam filtert, dann etwas Darstellung einer E-Mail ist und entweder "spam" oder "non-spam" ist). In der Größenordnung davon, um ein bestimmtes Problem zu sein, "kommt so nah näher wie möglich", muss streng definiert werden. In der Entscheidungstheorie wird das durch das Spezifizieren einer Verlust-Funktion definiert, die einen spezifischen Wert "dem Verlust" zuteilt, der sich aus dem Produzieren eines falschen Etiketts ergibt. Die Absicht ist dann, den erwarteten Schadensumfang, mit der Erwartung übernommen der Wahrscheinlichkeitsvertrieb dessen zu minimieren. In der Praxis sind weder der Vertrieb noch die Boden-Wahrheitsfunktion genau bekannt, aber können nur empirisch durch das Sammeln einer Vielzahl von Proben und Handbeschriften sie geschätzt werden, den richtigen Wert dessen verwendend (ein zeitraubender Prozess, der normalerweise der Begrenzungsfaktor im Betrag von Daten dieser Sorte ist, die gesammelt werden kann). Die besondere Verlust-Funktion hängt vom Typ des Etiketts ab, das wird voraussagt. Zum Beispiel, im Fall von der Klassifikation, die einfache Null ist eine Verlust-Funktion häufig genügend. Das entspricht einfach zum Zuweisen eines Verlustes 1 zu jedem falschen Beschriften und ist zur Computerwissenschaft der Genauigkeit des Klassifikationsverfahrens über den Satz von Testdaten gleichwertig (d. h. das Zusammenzählen der Bruchteil von Beispielen, die die gelehrte Funktion richtig etikettiert. Die Absicht des Lernverfahrens ist, diese Testgenauigkeit auf einem "typischen" Testsatz zu maximieren.

Für ein probabilistic Muster recognizer ist das Problem stattdessen einzuschätzen, dass die Wahrscheinlichkeit jeder möglichen Produktion gegeben ein besonderes Eingangsbeispiel etikettiert, d. h. eine Funktion der Form zu schätzen

:

wo der Eigenschaft-Vektor-Eingang ist, und die Funktion f normalerweise durch einige Rahmen parametrisiert wird. In einer unterscheidenden Annäherung an das Problem wird f direkt geschätzt. In einer generativen Annäherung, jedoch, wird die umgekehrte Wahrscheinlichkeit stattdessen geschätzt und mit der vorherigen Wahrscheinlichkeit mit der Regel von Buchten wie folgt verbunden:

:

Wenn die Etiketten unaufhörlich verteilt werden (z.B in der Regressionsanalyse), schließt der Nenner Integration aber nicht Summierung ein:

:

Der Wert dessen wird normalerweise mit der Bewertung des Maximums a posteriori (MAP) erfahren. Das findet den besten Wert, der gleichzeitig zwei widerstreitende Gegenstände entspricht: Sowie möglich auf den Lehrdaten zu leisten und das einfachstmögliche Modell zu finden. Im Wesentlichen verbindet das maximale Wahrscheinlichkeitsbewertung mit einem regularization Verfahren, das einfachere Modelle über kompliziertere Modelle bevorzugt. In einem Zusammenhang von Bayesian kann das regularization Verfahren als das Stellen einer vorherigen Wahrscheinlichkeit auf verschiedenen Werten dessen angesehen werden. Mathematisch:

:

wo der Wert ist, der für im nachfolgenden Einschätzungsverfahren, und, die spätere Wahrscheinlichkeit dessen verwendet ist, wird durch gegeben

:

In der Annäherung von Bayesian an dieses Problem, anstatt einen einzelnen Parameter-Vektoren zu wählen, wird die Wahrscheinlichkeit eines gegebenen Etiketts für ein neues Beispiel durch die Integrierung über alle möglichen Werte dessen geschätzt, gemäß der späteren Wahrscheinlichkeit beschwert:

:

Gebrauch

Innerhalb der medizinischen Wissenschaft ist Muster-Anerkennung die Basis für Systeme der computergestützten Diagnose (CAD). CAD beschreibt ein Verfahren, das die Interpretationen und Ergebnisse des Arztes unterstützt.

Typische Anwendungen sind automatische Spracherkennung, Klassifikation des Textes in mehrere Kategorien (z.B spam/non-spam E-Mail-Nachrichten), die automatische Anerkennung von handschriftlichen Postleitzahlen auf Postumschlägen, automatische Anerkennung von Images von menschlichen Gesichtern oder Handschrift-Bildförderung von medizinischen Formen. Die letzten zwei Beispiele bilden die Subthema-Bildanalyse der Muster-Anerkennung, die sich mit Digitalimages als Eingang befasst, um Anerkennungssysteme zu gestalten.

Die Methode, jemandes Namen zu unterzeichnen, wurde mit dem Kopierstift und der Bedeckung gewonnen, die 1990 anfängt. Die Schläge, Geschwindigkeit, Verhältnisminute, relativer max, Beschleunigung und Druck werden verwendet, um Identität einzigartig zu identifizieren und zu bestätigen. Banken wurden zuerst diese Technologie angeboten, aber waren zufrieden, sich vom FDIC für jeden Bankschwindel zu versammeln, und haben Kunden nicht belästigen wollen..

Algorithmen

Algorithmen für die Muster-Anerkennung hängen vom Typ der Etikett-Produktion, darauf ab, ob das Lernen beaufsichtigt oder, und darauf unbeaufsichtigt wird, ob der Algorithmus statistisch oder in der Natur nichtstatistisch ist. Statistische Algorithmen können weiter als generativ oder unterscheidend kategorisiert werden.

Klassifikationsalgorithmen (beaufsichtigte Algorithmen, die kategorische Etiketten voraussagen)

  • Maximales Wärmegewicht classifier (auch bekannt als logistisches rückwärts Gehen, multinomial logistisches rückwärts Gehen): Bemerken Sie, dass logistisches rückwärts Gehen ein Algorithmus für die Klassifikation trotz seines Namens ist. (Der Name kommt aus der Tatsache, dass logistisches rückwärts Gehen eine Erweiterung eines geradlinigen Modells des rückwärts Gehens verwendet, um die Wahrscheinlichkeit eines Eingangs zu modellieren, der in einer besonderen Klasse ist.)
  • Naiver Bayes classifier
  • Entscheidungsbäume, Entscheidung verzeichnet
  • Unterstützungsvektor-Maschinen
  • Kernbewertung und K-nearest-neighbor Algorithmen
  • Perceptrons
  • Nervennetze (Mehrniveau perceptrons)

Das Sammeln von Algorithmen (unbeaufsichtigte Algorithmen, die kategorische Etiketten voraussagen)

  • Kategorische Mischungsmodelle
  • K-Mittel, die sich sammeln
  • Das hierarchische Sammeln (agglomerative oder teilend)
  • Kernhauptteilanalyse (Kern-PCA)
  • Tief das Lernen von Methoden

Algorithmen des rückwärts Gehens (das Voraussagen reellwertiger Etiketten)

Beaufsichtigt:

  • Geradliniges rückwärts Gehen und Erweiterungen
  • Nervennetze
  • Gaussian bearbeiten rückwärts Gehen (kriging)

Unbeaufsichtigt:

Kategorische Folge-Beschriften-Algorithmen (das Voraussagen von Folgen von kategorischen Etiketten)

Beaufsichtigt:Unbeaufsichtigt:Verborgene Modelle von Markov (HMMs)

Reellwertige Folge-Beschriften-Algorithmen (das Voraussagen von Folgen von reellwertigen Etiketten)

Beaufsichtigt (?):

  • Filter von Kalman
  • Partikel-Filter
Unbeaufsichtigt:
  • ???

Die Syntaxanalyse von Algorithmen (hat das Voraussagen des Baums Etiketten strukturiert)

Beaufsichtigt und unbeaufsichtigt:

  • Zusammenhang von Probabilistic freie Grammatiken (PCFGs)

Allgemeine Algorithmen, um willkürlich strukturierte Etiketten vorauszusagen

  • Netze von Bayesian
  • Markov zufällige Felder

Ensemble-Lernalgorithmen (beaufsichtigte Meta-Algorithmen, um vielfache Lernalgorithmen zusammen zu verbinden)

  • Das Stiefelstrippe-Anhäufen, das (sich) (bauscht)
  • Das Aufladen
  • Ensemble, das im Durchschnitt beträgt
  • Mischung von Experten, hierarchische Mischung von Experten

Siehe auch

  • Perceptual, der erfährt
  • Sprachmodell des geheimen Lagers
  • Zusammengesetzter Begriff, der in einer Prozession geht
  • Computergestützte Diagnose
  • Daten, die abbauen
  • Liste der numerischen Analyse-Software
  • Liste von numerischen Bibliotheken
  • Maschine, die erfährt
  • Neocognitron
  • Prophetische Analytik
  • Vorherige Kenntnisse für die Muster-Anerkennung
  • Folge, die abbaut
  • Schablone, die zusammenpasst
  • Dünnes Schneiden
  • Wahrnehmung

Weiterführende Literatur

Links


Bereich von Bernal / Gartenstadt-Süden, New York
Impressum & Datenschutz