Von Satisfizierung zur Optimierung im Verstärkungslernen
From Satisficing to Optimization in Reinforcement Learning
Wissenschaftsdisziplinen
Informatik (80%); Mathematik (20%)
Keywords
-
Reinforcement Learning,
Satisficing,
Regret,
Multi-Armed Bandit,
Computational Learning Theory,
Markov decision process
Im Forschungsgebiet des Reinforcement Learning (dt. oft Verstärkungslernen) werden Algorithmen entwickelt, die komplexes Verhalten (wie z.B. Autofahren, Spielen eines Computer- oder Brettspiels) selbständig erlernen können. Bei einigen derartigen Lernproblemen geht es darum, etwas optimal, also so gut wie möglich machen zu können, etwa beim Spielen eines Computerspiels, wo möglichst viele Punkte erreicht werden sollen. Die meisten entwickelten Algorithmen basieren tatsächlich auf einer Optimierung von Auszahlungen (wie etwa die Punkte im Computerspiel), obwohl sehr viele Lernprobleme eigentlich anderer Art sind. Soll uns beispielsweise ein autonomes Fahrzeug in die Arbeit bringen, muss das nicht unbedingt möglichst schnell oder auf kürzestem Weg erfolgen. Typischerweise genügt es, wenn wir rechtzeitig zu Arbeitsbeginn im Büro sind. Für die meisten derzeit verfügbaren Lernalgorithmen müsste man dennoch versuchen, die Problemstellung als Optimierungsproblem darzustellen, um sie anwenden zu können. Das bedeutet nicht nur Zusatzarbeit für die Anwenderin, die entstehenden Optimierungsprobleme sind in der Praxis oft auch schwierig zu lösen. Das Berechnen der auf den Zentimeter kürzesten oder auf die Sekunde schnellsten Autofahrt ins Büro ist aufgrund der Komplexität des Problems praktisch unmöglich. Entsprechend lassen sich die meisten Lernalgorithmen in der Praxis auch kaum sinnvoll einsetzen. In einem Vorgängerprojekt wurde untersucht, inwiefern es von Vorteil ist, wenn Problemstellungen nicht unbedingt optimal sondern nur gut genug zu lösen sind. Während bekannt war, dass das Erlernen von bestmöglichem Verhalten immer nur eine Annäherung an dieses liefern kann, konnte gezeigt werden, dass eine Strategie, die gut genug ist, d.h. über einem vorgegebenem Schwellwert liegt, auch exakt gelernt werden kann. Das bedeutet aber auch, dass eine optimale Strategie auch exakt erlernt werden kann, wenn ein Schwellwert bekannt ist, der nur durch diese erreicht werden kann. Das vorliegende Nachfolgeprojekt möchte sich nun insbesondere Lernalgorithmen widmen, die versuchen, einen solchen Schwellwert adaptiv zu bestimmen. Solche Algorithmen könnten Problemstellungen in der Praxis viel schneller und effizienter lösen.
- Montanuniversität Leoben - 100%