Früh das Aufhören

Im Maschinenlernen ist frühes Aufhören eine Form von verwendetem regularization, wenn ein Maschinenlernmodell (wie ein Nervennetz) durch den Online-Anstieg-Abstieg erzogen wird. Im frühen Aufhören wird der Lehrsatz in einen neuen Lehrsatz und einen Gültigkeitserklärungssatz gespalten. Anstieg-Abstieg wird auf den neuen Lehrsatz angewandt. Nach jedem Kehren durch den neuen Lehrsatz wird das Netz auf dem Gültigkeitserklärungssatz bewertet. Wenn die Leistung mit dem Gültigkeitserklärungstest aufhört, sich, die Algorithmus-Halte zu verbessern. Das Netz mit der besten Leistung auf dem Gültigkeitserklärungssatz wird dann für die wirkliche Prüfung verwendet, mit einem getrennten Satz von Daten (wird der Gültigkeitserklärungssatz im Lernen verwendet zu entscheiden, wenn man anhält).

Diese Technik ist eine einfache, aber effiziente Kerbe, um sich mit dem Problem der Überanprobe zu befassen. Das Überpassen ist ein Phänomen, in dem ein Lernsystem, wie ein Nervennetz sehr gut daran kommt, sich mit einer Datei auf Kosten des Werdens sehr schlecht daran zu befassen, sich mit anderen Dateien zu befassen. Frühes Aufhören beschränkt die verwendeten Gewichte im Netz effektiv und erlegt so einen regularization auf, effektiv die VC Dimension senkend.

Frühes Aufhören ist eine sehr übliche Praxis in der Nervennetzausbildung und erzeugt häufig Netze, die gut verallgemeinern. Jedoch, während es häufig die Generalisation verbessert, tut es so auf eine mathematisch bestimmte Weise nicht.

Methode

  1. Teilen Sie die verfügbaren Daten in Lehr- und Gültigkeitserklärungssätze.
  2. Verwenden Sie eine Vielzahl von verborgenen Einheiten.
  3. Verwenden Sie sehr kleine zufällige Anfangswerte.
  4. Verwenden Sie eine langsame Lernrate.
  5. Schätzen Sie die Gültigkeitserklärungsfehlerrate regelmäßig während der Ausbildung.
  6. Hören Sie Ausbildung auf, wenn die Gültigkeitserklärungsfehlerrate "anfängt zu steigen".

Es ist entscheidend zu begreifen, dass der Gültigkeitserklärungsfehler nicht eine gute Schätzung des Generalisationsfehlers ist. Eine Methode, für eine unvoreingenommene Schätzung des Generalisationsfehlers zu bekommen, soll das Netz auf einem dritten Satz von Daten, dem Testsatz führen, der überhaupt während des Lehrprozesses nicht verwendet wird. Der Fehler auf dem Testsatz gibt Schätzung auf der Generalisation; die Produktionen des ungefähren Nettoziels zu haben, schätzt gegebene Eingänge, die nicht im Lehrsatz sind.

Vorteile

Frühes Aufhören hat mehrere Vorteile:

  • Es ist schnell.
  • Es kann erfolgreich auf Netze angewandt werden, in denen die Zahl von Gewichten weit die Beispielgröße überschreitet.
  • Man verlangt nur eine Hauptentscheidung vom Benutzer: Welches Verhältnis von Gültigkeitserklärungsfällen zu verwenden.

Probleme

  • Es ist darauf nicht klar, wie viele Fälle, um der Ausbildung und Gültigkeitserklärung zuzuteilen, setzt
  • Das Ergebnis könnte vom Algorithmus hoch abhängen, der verwendet wird, um die Daten in die Ausbildung zu spalten, und Gültigkeitserklärung gesetzt
hat
  • Der Begriff des "zunehmenden Gültigkeitserklärungsfehlers" ist zweideutig; es kann auf und ab in zahlreichen Zeiten während der Ausbildung gehen. Die sicherste Annäherung soll sich zur Konvergenz ausbilden, dann bestimmen, welche Wiederholung den niedrigsten Gültigkeitserklärungsfehler hatte. Das verschlechtert schnelle Ausbildung, einen der Vorteile des frühen Aufhörens.

Siehe auch

Wenn es
  • überpasst, ist frühes Aufhören eine von Methoden, die verwendet sind, um zu verhindern, überzupassen
  • Quer-Gültigkeitserklärung, im besonderen Verwenden eines "Gültigkeitserklärungssatzes"
  • Generalisationsfehler

Links


Mücke Klump / Alexander Calder
Impressum & Datenschutz