Überanprobe

In der Statistik und dem Maschinenlernen kommt Überanprobe vor, wenn ein statistisches Modell zufälligen Fehler oder Geräusch statt der zu Grunde liegenden Beziehung beschreibt. Überanprobe kommt allgemein vor, wenn ein Modell übermäßig kompliziert ist wie, zu viele Rahmen hinsichtlich der Zahl von Beobachtungen zu haben. Ein Modell, das überpassend gewesen ist, wird allgemein schlechte prophetische Leistung haben, weil es geringe Schwankungen in den Daten übertreiben kann.

Die Möglichkeit der Überanprobe besteht, weil das Kriterium, das für die Ausbildung verwendet ist, das Modell ist nicht dasselbe als das Kriterium, gepflegt hat, die Wirkung eines Modells zu beurteilen. Insbesondere ein Modell wird normalerweise durch die Maximierung seiner Leistung auf einem Satz von Lehrdaten erzogen. Jedoch wird seine Wirkung nicht durch seine Leistung auf den Lehrdaten, aber durch seine Fähigkeit bestimmt, auf ungesehenen Daten eine gute Leistung zu bringen. Überanprobe kommt vor, wenn ein Modell beginnt, sich Lehrdaten einzuprägen, anstatt zu lernen, von der Tendenz zu verallgemeinern. Als ein äußerstes Beispiel, wenn die Zahl von Rahmen dasselbe als oder größer ist als die Zahl von Beobachtungen, kann ein einfaches Modell lernen, die Lehrdaten einfach durch das Merken der Lehrdaten vollständig vollkommen vorauszusagen. Solch ein Modell wird normalerweise drastisch auf ungesehenen Daten scheitern, weil es nicht gelernt hat, überhaupt zu verallgemeinern.

Das Potenzial für die Überanprobe hängt nicht nur von der Zahl von Rahmen und Daten sondern auch dem conformability der Musterstruktur mit der Datengestalt und dem Umfang des Musterfehlers im Vergleich zum erwarteten Niveau des Geräusches oder Fehlers in den Daten ab.

Selbst wenn das taillierte Modell keine übermäßige Zahl von Rahmen hat, soll es erwartet werden, dass die taillierte Beziehung scheinen wird, weniger gut auf einer neuen Datei zu leisten, als auf der für die Anprobe verwendeten Datei. Insbesondere der Wert des Koeffizienten des Entschlusses wird hinsichtlich der ursprünglichen Lehrdaten zurückweichen.

Um zu vermeiden überzupassen, ist es notwendig, zusätzliche Techniken zu verwenden (z.B Quer-Gültigkeitserklärung, regularization, früh das Aufhören, die Beschneidung, Bayesian priors auf Rahmen oder Mustervergleich), der anzeigen kann, wenn Weiterbildung auf bessere Generalisation nicht hinausläuft. Die Basis von einigen Techniken ist entweder (1), um allzu komplizierte Modelle, oder (2) ausführlich zu bestrafen, um die Fähigkeit des Modells zu prüfen, durch das Auswerten seiner Leistung auf einer Reihe von Daten zu verallgemeinern, die nicht für die Ausbildung verwendet ist, die, wie man annimmt, den typischen ungesehenen Daten näher kommt, auf die ein Modell stoßen wird.

Das Maschinenlernen

Das Konzept der Überanprobe ist im Maschinenlernen wichtig. Gewöhnlich wird ein Lernalgorithmus mit einem Satz von Lehrbeispielen, d. h. vorbildlichen Situationen erzogen, für die die gewünschte Produktion bekannt ist. Wie man annimmt, erreicht der Anfänger einen Staat, wo er auch im Stande sein wird, die richtige Produktion für andere Beispiele vorauszusagen, so zu Situationen verallgemeinernd, die nicht während der Ausbildung präsentiert sind (gestützt auf seiner induktiven Neigung). Jedoch besonders in Fällen, wo das Lernen zu lange durchgeführt wurde, oder wo Lehrbeispiele selten sind, kann sich der Anfänger an sehr spezifische zufällige Eigenschaften der Lehrdaten anpassen, die keine kausale Beziehung zur Zielfunktion haben. In diesem Prozess der Überanprobe nimmt die Leistung auf den Lehrbeispielen noch zu, während die Leistung auf ungesehenen Daten schlechter wird.

Als ein einfaches Beispiel, denken Sie eine Datenbank von Einzelkäufen, die den Artikel gekauft, der Käufer und das Datum und Zeit des Kaufs einschließt. Es ist leicht, ein Modell zu bauen, das die Ausbildung gesetzt vollkommen durch das Verwenden des Datums und Zeit des Kaufs passen wird, um die anderen Attribute vorauszusagen; aber dieses Modell wird überhaupt zu neuen Daten nicht verallgemeinern, weil jene letzten Male wieder nie vorkommen wird.

Allgemein, wie man sagt, passt ein Lernalgorithmus hinsichtlich eines einfacheren über, wenn es in der Anprobe bekannter Daten (verspätete Einsicht) genauer, aber im Voraussagen neuer Daten (Voraussicht) weniger genau ist. Man kann Überanprobe von der Tatsache intuitiv verstehen, dass die Information von der ganzen vorigen Erfahrung in zwei Gruppen geteilt werden kann: Information, die für die zukünftige und irrelevante Information ("Geräusch") wichtig ist. Etwas anderes gleich seiend, je schwieriger ein Kriterium voraussagen soll (d. h., desto höher seine Unklarheit), der mehr Geräusch-besteht in der vorigen Information, die ignoriert werden muss. Das Problem bestimmt der Teil zu ignorieren. Ein Lernalgorithmus, der die Chance reduzieren kann, Geräusch zu passen, wird robust genannt.

Siehe auch

  • Daten, die ausbaggern
  • Kurve, die passt

Außenverbindungen

http://www.cs.sunysb.edu/~skiena/jaialai/excerpts/node16.html

FLCL / Stoke-on-Trent
Impressum & Datenschutz