Reinforcement Learning

Glossar
SchlüsselwörterVerstärkendes Lernen, verstärkenden Lernen, Reinforcement Learning, Deep Reinforcement Learning
TypKI-Methode

Verstärkendes Lernen oder Reinforcement Learning ist eines der gängigsten Verfahren des Maschinellen Lernens, bei dem ein System eigene Strategien entwickelt und durch Interaktion mit seiner Umgebung lernt.

Beim Reinforcement Learning trifft ein Agent Entscheidungen in einer Umgebung, mit dem Ziel positives Feedback (Belohnung/Reward) über „Values“ zu maximieren. Der Agent wird dabei nicht mit vorgegebenen Antworten oder Daten trainiert, sondern muss selbstständig lernen, welche Aktion in einer bestimmten Situation am sinnvollsten ist. Der Agent entscheidet sich für eine Aktion basierend auf den Values und dem aktuellen Zustand (State) der Umgebung. Die Umgebung antwortet mit einem neuen Value und einer Belohnung. Er lernt dann aus diesem Feedback und passt seine Entscheidungen an. Ziel des Reinforcement Learning besteht darin, dass der Agent eine optimale Strategie (Policy) findet, die den erwarteten kumulativen Gewinn (auch bekannt als „Value“) über die Zeit maximiert. Ein Beispiel für verstärkendes Lernen das Training eines Chatbots, welcher Feedback/Belohnungen von Nutzern für gute Antworten enthält und darauf trainiert wird bessere Antworten auf Fragen zu geben.


Lernansätze

Value-Iteration

Im Rahmen des Value-Iteration Ansatzes, wird jedem möglichen Zustand ein Wert zugeordnet, um daraus die optimale Policy ableiten zu können. Es wird eine Schätzung des Wertes (Value) jedes Zustandes in der Umgebung vorgenommen, indem der Agent anfängt Anfangswerte den Variablen oder Objekten zuzuweisen. Dann wird der Wert jedes Zustands in Iterationen aktualisiert, indem der erwartete zukünftige Wert für jede mögliche Aktion aus diesem Zustand heraus berechnet und der maximale dieser Werte genommen wird. Dieser Vorgang wird solange wiederholt (Iteration), bis der Agent, die bestmöglichen Werte erreicht bzw. den maximalen erwarteten Nutzen zu allen Aktionen berechnet hat. Damit ist gemeint, dass die Werte der Zustände (Values) sich nicht mehr ändern oder eine Konvergenz erreicht ist. Schließlich erhält man den optimalen Wert für jeden Zustand bzw. Aktionen die den maximalen Value erzielen, woraus sich die Handlungsstrategie (Policy) ableiten lässt.

Policy-Iteration

Die Umsetzung des Policy-Iteration Ansatz ist ähnlich zum Value-Iteration Ansatz. Der Unterschied zwischen den beiden Methoden besteht darin, dass bei der Policy-Iteration eine anfängliche Strategie angenommen und der Value jedes Zustands unter dieser Policy berechnet wird. Auf Basis der berechneten Values wird eine neue Policy erstellt, die versucht den Value zu erhöhen. Wenn die neue Policy besser ist als die alte (d.h. sie liefert höhere Werte), wird der Prozess wiederholt, indem der Wert jedes Zustands unter der neuen Policy berechnet wird und eine noch bessere Handlungsstrategie erstellt wird. Der Hauptunterschied zwischen den beiden Methoden besteht darin, dass die Value Iteration auf der Optimierung der Values basiert und die Policy erst am Ende daraus abgeleitet wird, während die Policy Iteration direkt auf der Optimierung der Policy basiert.

Q-Learning

Q-Learning ist ein modellfreier Ansatz, bei dem der Agent eine sogenannte Q-Funktion (Q-value) verwendet . Modell-frei bedeutet in diesem Kontext, dass der Algorithmus nicht über ein vorheriges Wissen über die Umgebung verfügt und stattdessen durch Interaktion mit der Umgebung lernt. Die Q-Funktion gibt den erwarteten zukünftigen Diskontierungsgewinn (oder die "Qualität") einer Aktion in einem gegebenen Zustand an. Der Agent lernt durch Exploration und durch die Ausnutzung der Umgebung, indem er die Q-Werte basierend auf die tatsächlichen Belohnungen und Zustandsübergängen aktualisiert. Q-Learning ist besonders effektiv, wenn der Agent die Umgebung nicht vollständig kennt.

Policy-Gradient-Methoden

Bei diesem Ansatz werden die Parameter der Policy optimiert. Der Agent passt die Parameter mithilfe von Gradientenabstiegstechniken an, um die zukünftige Belohnung zu maximieren. Die Gradientenabstiegsverfahren werden verwendet, um die Parameter der Policy zu optimieren. Konkret wird der Gradient der erwarteten Gesamtbelohnung (also der erwartete zukünftige Diskontierungsgewinn) in Bezug auf die Parameter berechnet, und die Parameter werden dann in die Richtung des steilsten Anstiegs dieser Funktion aktualisiert. Durch das Wiederholen verbessert sich die Policy im Laufe der Zeit, da der Agent aus seinen Erfahrungen lernt und die Wahrscheinlichkeiten der Aktionen entsprechend anpasst.

Actor-Critic-Methoden

Actor-Critic-Methoden kombinieren Elemente der Policy-Gradient-Methoden und Value-Iteration. Der Agent besteht aus einem Akteur(Actor), der eine Policy entwickelt, und einem Kritiker (Critic), der die Wertefunktion (Values) schätzt. Der Akteur verbessert die Policy basierend auf den vom Kritiker bereitgestellten Rückmeldungen, um eine höhere Belohnung zu erzielen. Diese Methode ermöglicht eine effiziente Aktualisierung der Policy und gleichzeitig eine gute Schätzung des Wertes.

WEITERFÜHRENDE LITERATUR