Das Verstärkungslernen

Begeistert durch die behavioristische Psychologie ist Verstärkung, die erfährt, ein Gebiet der Maschine, die in der Informatik erfährt, die damit betroffen ist, wie ein Agent Handlungen in einer Umgebung nehmen sollte, um einen Begriff der kumulativen Belohnung zu maximieren. Das Problem, wegen seiner Allgemeinheit, wird in vielen anderen Disziplinen, wie Spieltheorie, Steuerungstheorie, Operationsforschung, Informationstheorie, simulierungsbasierte Optimierung, Statistik und genetische Algorithmen studiert. In der Operationsforschung und Kontrollliteratur wird das Feld, wo Verstärkungslernmethoden studiert werden, ungefähre dynamische Programmierung genannt. Das Problem ist in der Theorie der optimalen Kontrolle studiert worden, obwohl die meisten Studien dort mit Existenz von optimalen Lösungen und ihrer Charakterisierung, und nicht mit den Lern- oder Annäherungsaspekten beschäftigt sind.

In der Volkswirtschaft und Spieltheorie kann Verstärkung, die erfährt, verwendet werden, um zu erklären, wie Gleichgewicht unter der begrenzten Vernunft entstehen kann.

Im Maschinenlernen wird die Umgebung normalerweise als ein Entscheidungsprozess von Markov (MDP) formuliert, und viele Verstärkungslernalgorithmen für diesen Zusammenhang sind hoch mit dynamischen Programmiertechniken verbunden. Der Hauptunterschied zu diesen klassischen Techniken ist, dass Verstärkungslernalgorithmen die Kenntnisse des MDP nicht brauchen und sie großen MDPs ins Visier nehmen, wo genaue Methoden unausführbar werden.

Verstärkung, die erfährt, unterscheidet sich vom beaufsichtigten Standard, in diesem richtigen Eingang/Produktion erfahrend, Paare, werden noch suboptimale ausführlich korrigierte Handlungen nie präsentiert. Weiter gibt es einen Fokus auf der Online-Leistung, die mit Entdeckung eines Gleichgewichtes zwischen Erforschung (des unerforschten Territoriums) und Ausnutzung (aktueller Kenntnisse) verbunden ist. Die Erforschung gegen den Ausnutzungsumtausch in der Verstärkung, die erfährt, ist durch das mehrbewaffnete Bandit-Problem und in begrenztem MDPs am meisten gründlich studiert worden.

Einführung

Das grundlegende Verstärkungslernmodell besteht aus:

  1. eine Reihe von Umgebungsstaaten;
  2. eine Reihe von Handlungen;
  3. Regeln des Wechselns zwischen Staaten;
  4. Regeln, die die unmittelbare Skalarbelohnung eines Übergangs bestimmen; und
  5. Regeln, die beschreiben, was der Agent beobachtet.

Die Regeln sind häufig stochastisch. Die Beobachtung ist normalerweise mit der unmittelbaren zum letzten Übergang vereinigten Skalarbelohnung verbunden.

In vielen Arbeiten, wie man auch annimmt, beobachtet der Agent den aktuellen Umweltstaat, in welchem Fall wir über die volle Wahrnehmbarkeit sprechen, wohingegen im gegenüberliegenden Fall wir über die teilweise Wahrnehmbarkeit sprechen. Manchmal wird der Satz von für den Agenten verfügbaren Handlungen eingeschränkt (z.B, Sie können mehr Geld nicht ausgeben als, was Sie besitzen).

Ein Verstärkungslernagent wirkt mit seiner Umgebung in Schritten der diskreten Zeit aufeinander.

Jedes Mal erhält der Agent eine Beobachtung, die normalerweise die Belohnung einschließt.

Es wählt dann eine Handlung aus dem Satz von verfügbaren Handlungen, der nachher an die Umgebung gesandt wird.

Die Umgebung bewegt sich zu einem neuen Staat, und die mit dem Übergang vereinigte Belohnung wird bestimmt.

Die Absicht eines Verstärkungslernagenten ist, so viel Belohnung wie möglich zu sammeln. Der Agent kann jede Handlung als eine Funktion der Geschichte wählen, und es kann sogar randomize seine Handlungsauswahl.

Wenn die Leistung des Agenten im Vergleich zu diesem eines Agenten ist, der optimal vom Anfang handelt, verursacht der Unterschied in der Leistung den Begriff der Reue.

Bemerken Sie, dass, um nahe optimal zu handeln, der Agent über die langfristigen Folgen seiner Handlungen vernünftig urteilen muss: Um mein zukünftiges Einkommen zu maximieren, gehe ich besser jetzt in die Schule, obwohl die unmittelbare damit vereinigte Geldbelohnung negativ sein könnte.

So wird Verstärkung, die erfährt, besonders Problemen gut angepasst, die einen langfristigen gegen den Kurzzeitbelohnungsumtausch einschließen. Es ist erfolgreich auf verschiedene Probleme, einschließlich Roboter-Kontrolle, Aufzug-Terminplanung, Fernmeldewesens, backgammon und Kontrolleure (Sutton und Barto 1998, Kapitel 11) angewandt worden.

Zwei Bestandteile machen Verstärkung, die stark erfährt:

Der Gebrauch von Proben, um Leistung und den Gebrauch der Funktionsannäherung zu optimieren, um sich mit großen Umgebungen zu befassen.

Dank dieser zwei Schlüsselbestandteile kann Verstärkung, die erfährt, in großen Umgebungen in einigen der folgenden Situationen verwendet werden:

  • Ein Modell der Umgebung ist bekannt, aber eine analytische Lösung ist nicht verfügbar;
  • Nur ein Simulierungsmodell der Umgebung wird (das Thema der simulierungsbasierten Optimierung) gegeben;
  • Die einzige Weise, Information über die Umgebung zu sammeln, ist, indem er damit aufeinander gewirkt wird.

Die ersten zwei dieser Probleme konnten betrachtet werden, Probleme planend (da eine Form des Modells verfügbar ist), während der letzte als ein echtes Lernproblem betrachtet werden konnte. Jedoch unter einer Verstärkungslernmethodik würden beide Planungsprobleme zu Maschinenlernproblemen umgewandelt.

Erforschung

Das Verstärkungslernproblem, verlangt wie beschrieben, kluge Erforschungsmechanismen. Wie man bekannt, verursacht zufällig das Auswählen von Handlungen sehr schlechte Leistung. Der Fall von (kleinem) begrenztem MDPs wird relativ inzwischen gut verstanden.

Jedoch, wegen des Mangels an Algorithmen, die gut mit der Zahl von Staaten (oder Skala zu Problemen mit unendlichen Zustandräumen) in Praxis-Leuten nachweisbar klettern würden, suchen einfache Erforschungsmethoden auf. Eine solche Methode ist - gierig, wenn der Agent die Handlung wählt, die sie glaubt, hat die beste langfristige Wirkung mit der Wahrscheinlichkeit, und sie wählt eine Handlung gleichförmig aufs Geratewohl sonst. Hier,

Algorithmen für das Kontrolllernen

Selbst wenn das Problem der Erforschung ignoriert wird, und selbst wenn der Staat erkennbar war (den wir zukünftig annehmen), muss das Problem herausfinden, welche Handlungen gestützt auf der vorigen Erfahrung gut sind.

Kriterium von optimality

Für die Einfachheit, nehmen Sie für einen Moment an, dass das studierte Problem, ein Episode-Ende episodisch ist, wenn ein Endstaat erreicht wird. Nehmen Sie weiter an, dass, egal was der Kurs von Handlungen der Agent nimmt, Beendigung mit der Wahrscheinlichkeit ein unvermeidlich ist. Unter einigen zusätzlichen milden Regelmäßigkeitsbedingungen ist die Erwartung der Gesamtbelohnung dann, für jede Politik und jeden anfänglichen Vertrieb über die Staaten bestimmt. In Anbetracht eines festen anfänglichen Vertriebs können wir so die erwartete Rückkehr zur Politik zuteilen:

:

wo die zufällige Variable die Rückkehr anzeigt und durch definiert wird

:

wo die erhaltene Belohnung ist, nachdem der-th Übergang, der anfängliche Staat aufs Geratewohl davon probiert wird und Handlungen durch die Politik ausgewählt werden. Hier, zeigt die (zufällige) Zeit an, wenn ein Endstaat, d. h., die Zeit erreicht wird, wenn die Episode endet.

Im Fall von nichtepisodischen Problemen wird die Rückkehr häufig, rabattiert

:

das Verursachen des rabattierten erwarteten Gesamtbelohnungskriteriums. Hier ist der so genannte Preisnachlass-Faktor. Da die unrabattierte Rückkehr ein spezieller Fall der rabattierten Rückkehr ist, zukünftig werden wir das Diskontieren annehmen. Obwohl das unschuldig genug aussieht, ist das Diskontieren tatsächlich problematisch, wenn man sich über die Online-Leistung sorgt. Das ist, weil das Diskontieren die anfänglichen Zeitsprünge wichtiger macht. Da ein erfahrender Agent wahrscheinlich Fehler während der ersten paar Schritte machen wird, nachdem seine "Lebens"-Anfänge, kein uninformierter Lernalgorithmus nah-optimale Leistung unter dem Diskontieren erreichen kann, selbst wenn die Klasse von Umgebungen auf diesen von begrenzten MDPs eingeschränkt wird. (Das bedeutet nicht, obwohl das, in Anbetracht genug Zeit, ein erfahrender Agent nicht bemalen kann, wie man nahe optimal handelt, wenn Zeit wiederangefangen wurde.)

Das Problem ist dann, einen Algorithmus anzugeben, der verwendet werden kann, um eine Politik mit der maximalen erwarteten Rückkehr zu finden.

Aus der Theorie von MDPs ist es bekannt, dass, ohne Verlust der Allgemeinheit, die Suche auf den Satz der so genannten stationären Policen eingeschränkt werden kann. Eine Politik wird stationär genannt, wenn der dadurch zurückgegebene Handlungsvertrieb nur der letzte Staat besucht abhängt (der ein Teil der Beobachtungsgeschichte des Agenten, durch unsere Vereinfachung der Annahme ist). Tatsächlich kann die Suche weiter auf deterministische stationäre Policen eingeschränkt werden. Eine deterministische stationäre Politik ist diejenige, die deterministisch auf dem aktuellen Staat gestützte Handlungen auswählt. Da jede solche Politik damit identifiziert werden kann, vom Satz von Staaten zum Satz der Handlung kartografisch darzustellen, können diese Policen mit solchem mappings ohne Verlust der Allgemeinheit identifiziert werden.

Rohe Gewalt

Die Annäherung der rohen Gewalt hat die folgenden zwei Schritte zur Folge:

  1. Für jede mögliche Politik kehrt Probe zurück, während sie ihm folgt
  2. Wählen Sie die Politik mit der größten erwarteten Rückkehr

Ein Problem damit besteht darin, dass die Zahl von Policen äußerst groß, oder sogar unendlich sein kann. Ein anderer ist diese Abweichung des Umsatzes könnte groß sein, in welchem Fall eine Vielzahl von Proben erforderlich sein wird, die Rückkehr jeder Politik genau zu schätzen.

Diese Probleme können verbessert werden, wenn wir eine Struktur annehmen und vielleicht von einer Politik erzeugte Proben erlauben, die für einen anderen gemachten Schätzungen zu beeinflussen. Die zwei Hauptannäherungen, um das zu erreichen, sind Wertfunktionsbewertung und direkte Politiksuche.

Wertfunktionsannäherungen

Wertfunktionsannäherungen versuchen, eine Politik zu finden, die die Rückkehr durch das Aufrechterhalten einer Reihe von Schätzungen des erwarteten Umsatzes für etwas Politik (gewöhnlich entweder der "Strom" oder der optimale) maximiert.

Diese Methoden verlassen sich auf die Theorie von MDPs, wo optimality gewissermaßen definiert wird, der stärker ist als über einem: Eine Politik wird optimal genannt, wenn sie die beste erwartete Rückkehr von anfänglichem Staat erreicht (d. h. anfänglicher Vertrieb spielt keine Rolle in dieser Definition). Wieder kann man immer eine optimale Politik unter stationären Policen finden.

Um optimality auf eine formelle Weise zu definieren, definieren Sie den Wert einer Politik durch

:

wo für die zufällige mit dem Folgen aus dem anfänglichen Staat vereinigte Rückkehr eintritt.

Definieren Sie als der maximale mögliche Wert dessen, wo erlaubt wird sich zu ändern:

:

Eine Politik, die diese optimalen Werte in jedem Staat erreicht, wird optimal genannt. Klar ist eine dieses starken Gefühls optimale Politik auch im Sinn optimal, dass es die erwartete Rückkehr seitdem maximiert, wo ein vom Vertrieb zufällig probierter Staat ist.

Obwohl Zustandwerte genügen, um optimality zu definieren, wird es sich erweisen, nützlich zu sein, Handlungswerte zu definieren. In Anbetracht eines Staates, einer Handlung und einer Politik, wird der Handlungswert des Paares darunter durch definiert

:

wo jetzt für die zufällige Rückkehr eintritt, die mit dem ersten Handeln im Staat und im Anschluss an danach vereinigt ist.

Es ist aus der Theorie von MDPs wohl bekannt, dass, wenn jemand uns für eine optimale Politik gibt, wir immer optimale Handlungen wählen (und so optimal handeln können) durch die einfache Auswahl der Handlung mit dem höchsten Wert an jedem Staat.

Die Handlungswert-Funktion solch einer optimalen Politik wird die optimale Handlungswert-Funktion genannt und wird dadurch angezeigt.

In der Zusammenfassung genügen die Kenntnisse der optimalen Handlungswert-Funktion allein, um zu wissen, wie man optimal handelt.

Wenn es

volle Kenntnisse des MDP annimmt, gibt es zwei grundlegende Annäherungen, um die optimale Handlungswert-Funktion zu schätzen, Wiederholung und Politikwiederholung zu schätzen.

Beide Algorithmen schätzen eine Folge von Funktionen , die dazu zusammenlaufen.

Computerwissenschaft dieser Funktionen ist mit Rechenerwartungen über den ganzen Zustandraum verbunden, der für alle unpraktisch ist, aber der kleinste (begrenzte) MDPs, macht dir nichts aus dem Fall, wenn der MDP unbekannt ist.

In Verstärkungslernmethoden wird den Erwartungen durch die Mittelwertbildung über Proben näher gekommen, und man verwendet Funktionsannäherungstechniken, um mit dem Bedürfnis fertig zu werden, Wertfunktionen über große Zustandhandlungsräume zu vertreten.

Methoden von Monte Carlo

Die einfachsten Methoden von Monte Carlo können in einem Algorithmus verwendet werden, der Politikwiederholung nachahmt.

Politikwiederholung besteht aus zwei Schritten: Politikeinschätzung und Politikverbesserung.

Die Methoden von Monte Carlo werden im Politikeinschätzungsschritt verwendet.

In diesem Schritt, in Anbetracht einer stationären, deterministischen Politik, ist die Absicht, die Funktionswerte (oder eine gute Annäherung an sie) für alle Zustandhandlungspaare zu schätzen.

Nehmen Sie an (für die Einfachheit), dass der MDP begrenzt ist und tatsächlich ein Tisch, der die Handlungswerte vertritt, das Gedächtnis einbaut.

Nehmen Sie weiter an, dass das Problem episodisch ist und nach jeder Episode, die ein neuer von einem zufälligen anfänglichen Staat anfängt.

Dann kann die Schätzung des Werts eines gegebenen Zustandhandlungspaares durch die einfache Mittelwertbildung des probierten Umsatzes geschätzt werden, der aus mit der Zeit entstanden ist.

In Anbetracht genug Zeit kann dieses Verfahren so eine genaue Schätzung der Handlungswert-Funktion bauen.

Das beendet die Beschreibung des Politikeinschätzungsschritts.

Im Politikverbesserungsschritt, weil es im Standardpolitikwiederholungsalgorithmus getan wird, wird die folgende Politik durch die Computerwissenschaft einer gierigen Politik erhalten in Bezug auf: In Anbetracht eines Staates gibt diese neue Politik eine Handlung zurück, die maximiert. In der Praxis vermeidet man häufig, die neue Politik zu schätzen und zu versorgen, aber verwendet faule Einschätzung, um die Berechnung der Maximierungshandlungen dazu aufzuschieben, wenn sie wirklich erforderlich sind.

Einige Probleme mit diesem Verfahren sind wie folgt:

  • Das Verfahren kann zu viel Zeit an das Auswerten einer suboptimalen Politik vergeuden;
  • Es verwendet Proben ineffizient darin eine lange Schussbahn wird verwendet, um die Schätzung nur des einzelnen Zustandhandlungspaares zu verbessern, das die Schussbahn angefangen hat;
  • Wenn der Umsatz entlang den Schussbahnen hohe Abweichung hat, wird Konvergenz langsam sein;
  • Es arbeitet in episodischen Problemen nur;
  • Es arbeitet in kleinem, begrenztem MDPs nur.

Zeitliche Unterschied-Methoden

Das erste Problem wird leicht korrigiert, indem es dem Verfahren erlaubt wird, die Politik zu ändern (überhaupt, oder an einigen Staaten), bevor sich die Werte niederlassen. Jedoch gut klingt das, das kann gefährlich sein, weil das Konvergenz verhindern könnte. Und doch, aktuellste Algorithmen führen diese Idee durch, die Klasse des verallgemeinerten Politikwiederholungsalgorithmus verursachend. Wir bemerken im Vorbeigehen, dass Schauspieler-Kritiker-Methoden dieser Kategorie gehören.

Das zweite Problem kann innerhalb des Algorithmus korrigiert werden, indem es Schussbahnen erlaubt wird, zu jedem Zustandhandlungspaar in ihnen beizutragen.

Das kann auch einigermaßen mit dem dritten Problem helfen, obwohl eine bessere Lösung, wenn Umsatz hohe Abweichung hat, die Methoden des zeitlichen Unterschieds (TD) von Sutton verwenden soll, die auf der rekursiven Gleichung des Öffentlichen Ausrufers basieren. Bemerken Sie, dass die Berechnung in TD Methoden zusätzlich sein kann (wenn nach jedem Übergang das Gedächtnis geändert wird und der Übergang weggeworfen wird), oder Gruppe (wenn die Übergänge gesammelt werden und dann die Schätzungen einmal gestützt auf einer Vielzahl von Übergängen geschätzt werden). Gruppe-Methoden, von denen ein Hauptbeispiel die Am-Wenigsten-Quadrate zeitliche Unterschied-Methode wegen Bradtke und Barto (1996) ist, können die Information in den Proben besser verwenden, wohingegen zusätzliche Methoden die einzige Wahl sind, wenn Gruppe-Methoden unausführbar wegen ihres hohen rechenbetonten oder Speicherkompliziertheit werden. Außerdem dort bestehen Sie Methoden, die versuchen, die Vorteile der zwei Annäherungen zu vereinigen. Methoden, die auf zeitlichen Unterschieden auch gestützt sind, überwinden die zweite, aber letzte Ausgabe.

Um die in der vorherigen Abteilung erwähnte letzte Ausgabe zu richten, werden Funktionsannäherungsmethoden verwendet.

In der geradlinigen Funktionsannäherung fängt man damit an, kartografisch darzustellen, der einen begrenzten dimensionalen Vektoren jedem Zustandhandlungspaar zuteilt. Dann werden die Handlungswerte eines Zustandhandlungspaares durch das geradlinige Kombinieren der Bestandteile mit einigen Gewichten erhalten:

:.

Die Algorithmen passen dann die Gewichte an, anstatt die mit den individuellen Zustandhandlungspaaren vereinigten Werte anzupassen.

Jedoch ist geradlinige Funktionsannäherung nicht die einzige Wahl.

Mehr kürzlich haben Methoden auf Ideen von der nichtparametrischen Statistik gestützt (der, wie man sehen kann, ihre eigenen Eigenschaften baut), sind erforscht worden.

Bis jetzt wurde die Diskussion darauf eingeschränkt, wie Politikwiederholung als eine Basis der Entwerfen-Verstärkungslernalgorithmen verwendet werden kann. Ebenso wichtig kann Wertwiederholung auch als ein Startpunkt verwendet werden, den Q-Lernalgorithmus (Watkins 1989) und seine viele Varianten verursachend.

Das Problem mit Methoden, die Handlungswerte verwenden, besteht darin, dass sie hoch genaue Schätzungen der konkurrierenden Handlungswerte brauchen können, die hart sein können vorzuherrschen, wenn der Umsatz laut ist. Obwohl dieses Problem einigermaßen durch zeitliche Unterschied-Methoden gelindert wird, und wenn man die so genannte vereinbare Funktionsannäherungsmethode verwendet, muss mehr Arbeit getan werden, um Allgemeinheit und Leistungsfähigkeit zu vergrößern. Ein anderes zu zeitlichen Unterschied-Methoden spezifisches Problem kommt aus ihrem Vertrauen auf der rekursiven Gleichung des Öffentlichen Ausrufers. Die meisten zeitlichen Unterschied-Methoden haben einen so genannten Parameter, der demjenigen erlaubt, unaufhörlich zwischen Methoden von Monte Carlo zu interpolieren (die sich auf die Gleichungen des Öffentlichen Ausrufers nicht verlassen) und die grundlegenden zeitlichen Unterschied-Methoden (sich die völlig auf die Gleichungen des Öffentlichen Ausrufers verlassen), der so im Lindern dieses Problems wirksam sein kann.

Direkte Politiksuche

Eine alternative Methode, eine gute Politik zu finden, ist, direkt in (eine Teilmenge) vom Politikraum zu suchen, in welchem Fall das Problem ein Beispiel der stochastischen Optimierung wird. Die zwei verfügbaren Annäherungen sind Anstieg-basierte und Methoden ohne Anstiege.

Anstieg-basierte Methoden (die so genannten Politikanstieg-Methoden verursachend), fangen damit an, von einem begrenzten dimensionalen (Parameter) Raum zum Raum von Policen kartografisch darzustellen: In Anbetracht des Parameter-Vektoren, lassen Sie zeigen die Politik an, die dazu vereinigt ist.

Definieren Sie die Leistungsfunktion durch

:

Unter milden Bedingungen wird diese Funktion differentiable als eine Funktion des Parameter-Vektoren sein.

Wenn der Anstieg dessen bekannt war, konnte man Anstieg-Aufstieg verwenden.

Da ein analytischer Ausdruck für den Anstieg nicht verfügbar ist, muss man sich auf eine laute Schätzung verlassen.

Solch eine Schätzung kann auf viele Weisen gebaut werden, das Verursachen von Algorithmen wie Williams VERSTÄRKT Methode (der auch bekannt als die Wahrscheinlichkeitsverhältnis-Methode in der simulierungsbasierten Optimierungsliteratur ist).

Politikanstieg-Methoden haben viel Aufmerksamkeit in den letzten beiden Jahren erhalten (z.B, Peters u. a. (2003)), aber sie bleiben ein aktives Feld.

Das Problem mit vielen dieser Methoden ist, dass sie in lokalen Optima stecken bleiben können (weil sie auf der lokalen Suche basieren).

Eine große Klasse von Methoden vermeidet, sich auf die Anstieg-Information zu verlassen.

Diese schließen das vorgetäuschte Ausglühen, die Quer-Wärmegewicht-Suche oder die Methoden der Entwicklungsberechnung ein.

Viele Methoden ohne Anstiege können (in der Theorie und in der Grenze) ein globales Optimum erreichen.

In mehreren Fällen haben sie tatsächlich bemerkenswerte Leistung demonstriert.

Das Problem mit Politiksuchmethoden ist, dass sie langsam zusammenlaufen können, wenn die Information, die gestützt ist, auf dem sie handeln, laut ist.

Zum Beispiel geschieht das, wenn in episodischen Problemen die Schussbahnen lang sind und die Abweichung des Umsatzes groß ist. Wie diskutiert, im Voraus hat Wertfunktion Methoden gestützt, die sich auf zeitliche Unterschiede verlassen, könnte in diesem Fall helfen. In den letzten Jahren sind mehrere Algorithmen des Schauspielers-Kritikers im Anschluss an diese Idee vorgeschlagen worden und wurden demonstriert, um auf verschiedenem eine gute Leistung zu bringen

Theorie

Die Theorie für kleinen, begrenzten MDPs ist ziemlich reif.

Sowohl das asymptotische als auch Begrenzt-Beispielverhalten von den meisten Algorithmen wird gut verstanden.

Wie erwähnt, im Voraus sind Algorithmen mit der nachweisbar guten Online-Leistung (das Erforschungsproblem richtend), bekannt.

Die Theorie von großem MDPs braucht mehr Arbeit. Effiziente Erforschung ist (abgesehen vom Fall von Bandit-Problemen) größtenteils unberührt.

Obwohl Leistungsgrenzen der endlichen Zeit für viele Algorithmen in den letzten Jahren erschienen sind, wie man erwartet, sind diese Grenzen ziemlich lose, und so ist mehr Arbeit erforderlich, um die Verhältnisvorteile, sowie die Beschränkungen dieser Algorithmen besser zu verstehen.

Für den zusätzlichen Algorithmus sind asymptotische Konvergenz-Probleme gesetzt worden. Kürzlich sind gestützte Algorithmen des neuen zusätzlichen, zeitlichen Unterschieds erschienen, die unter einem viel breiteren Satz von Bedingungen zusammenlaufen, als vorher (zum Beispiel, wenn verwendet, mit der willkürlichen, glatten Funktionsannäherung) möglich war.

Aktuelle Forschung

Aktuelle Forschungsthemen schließen ein:

anpassungsfähige Methoden, die mit weniger (oder nicht) Rahmen unter einer Vielzahl von Bedingungen, arbeiten

das Erforschungsproblem in großem MDPs, richtend

in großem Umfang empirische Einschätzungen,

erfahrend und unter der teilweisen Information (z.B, mit der Prophetischen Staatsdarstellung), handelnd

das modulare und hierarchische Verstärkungslernen,

das Verbessern vorhandener Wertfunktion und Politik sucht Methoden,

Algorithmen, die gut mit dem großen (oder dauernd) Handlungsräume, arbeiten

das Übertragungslernen,

das lebenslängliche Lernen,

effiziente beispielbasierte Planung (z.B, gestützt auf der Baumsuche von Monte Carlo).

Mehrreagenz oder Verteilte Verstärkung, die Erfährt, sind auch ein Thema von Interesse in der aktuellen Forschung.

Es gibt auch ein wachsendes Interesse an echten Lebensanwendungen des Verstärkungslernens.

Erfolge der Verstärkung, die erfährt, werden auf gesammelt

hier und

hier.

Verstärkungslernalgorithmen wie das TD-Lernen werden auch als ein Modell für das mit Sitz in Dopamine Lernen im Gehirn untersucht. In diesem Modell fungieren die dopaminergic Vorsprünge vom substantia nigra zum grundlegenden ganglia als der Vorhersagefehler. Verstärkung, die erfährt, ist auch als ein Teil des Modells für das menschliche Sachkenntnis-Lernen verwendet worden, besonders in Bezug auf die Wechselwirkung zwischen dem impliziten und ausführlichen Lernen im Sachkenntnis-Erwerb (war die erste Veröffentlichung auf dieser Anwendung in 1995-1996, und es hat viele Anschlußstudien gegeben). Sieh http://webdocs.cs.ualberta.ca/~sutton/RL-FAQ.html#behaviorism für weitere Details dieser Forschungsgebiete oben.

Literatur

Konferenzen, Zeitschriften

Die meisten Verstärkungslernpapiere werden beim Hauptmaschinenlernen und den AI Konferenzen (ICML, KNEIFEN, AAAI, IJCAI, UAI, AI und Statistik) und Zeitschriften (JAIR, JMLR, Maschinenlernzeitschrift) veröffentlicht. Einige Theorie-Papiere werden am COLT und ALT veröffentlicht. Jedoch erscheinen viele Papiere in Robotertechnik-Konferenzen (IROS, ICRA) und der "Reagenz"-Konferenz AAMAS. Operationsforscher veröffentlichen ihre Papiere an INFORMIERT Konferenz und, zum Beispiel, in der Operationsforschung und der Mathematik von Operationsforschungszeitschriften. Kontrollforscher veröffentlichen ihre Papiere am CDC und den ACC Konferenzen, oder, z.B, in den Zeitschriften IEEE Transaktionen auf der Automatischen Kontrolle oder Automatica, obwohl angewandte Arbeiten dazu neigen, in mehr spezialisierten Zeitschriften veröffentlicht zu werden. Die Wintersimulierungskonferenz veröffentlicht auch viele relevante Papiere. Anders als das, Papiere, die auch in den Hauptkonferenzen der Nervennetze, krauser und evolutionärer Berechnungsgemeinschaften veröffentlicht sind. Das jährliche IEEE Symposium hat Ungefähre Dynamische Programmierung betitelt, und Verstärkung (ADPRL) und die halbjährliche europäische Werkstatt auf der Verstärkung Erfahrend (EWRL) Erfahrend, sind zwei regelmäßig gehaltene Sitzungen, wo sich RL Forscher treffen.

Siehe auch

  • Die universale künstliche Intelligenz von Marcus Hutter, auch genannt AIXI
  • Zeitlicher Unterschied, der erfährt
  • Q das Lernen
  • SARSA
  • Romanspiel
  • Das Lernen classifier System
  • Optimale Kontrolle
  • Dynamische Behandlungsregime
  • Das fehlergesteuerte Lernen

Durchführungen

Außenverbindungen


Wadden Meer / Chinesische Kunst
Impressum & Datenschutz