Autonom lernende Systeme in dynamischen Umgebungen
DELTA (Dynamically Evolving Long-Term Autonomy)
Wissenschaftsdisziplinen
Informatik (80%); Mathematik (20%)
Keywords
- Reinforcement learning,
- Statistical learning theory,
- Exploration
In vielen komplexen autonomen Systemen ist es notwendig, wiederholt koordinierte Operationen auszuführen, um bestimmte Zielsetzungen zu erreichen. Der Bereich des Reinforcement Lernens (RL) bietet ein passendes und auch leistungsfähiges Framework für solche Aufgaben: Hier muss ein Lerner optimales Verhalten etwa eine Folge von koordinierten Aktionen, um einen bestimmten Zielzustand zu erreichen erlernen, indem er Feedback der Umgebung auf seine Aktionen beobachtet und auswertet. Obwohl es in letzter Zeit einige eindrucksvolle Anwendungen für RL-Algorithmen gab (etwa menschenähnliche Leistungen im Spielen von einfachen Videospielen oder das Schlagen des Weltmeisters im Brettspiel Go), funktionieren die meisten RL-Algorithmen nur unter der starken Voraussetzung einer unveränderlichen Umgebung mit fixer Zielsetzung. Das vorliegende Projekt möchte neue RL-Algorithmen entwickeln, die nicht mehr von dieser Voraussetzung abhängig sind. Diese Algorithmen sollen nicht nur in sich verändernden Umgebungen einsatzfähig sein, sondern auch mit unterschiedlichen und wechselnden Zielsetzungen umgehen können. Dies ermöglicht lebenslanges Lernen über längere Zeitintervalle, in denen der Lerner mehrere verschiedene Aufgaben zu erfüllen hat. Die zu entwickelnden AlgorithmenmüssenLösungen für folgende drei grundlegenden Problembereiche bieten: Exploration, Planung und Aufteilung von Aufgaben in Teilaufgaben. Exploration beschäftigt sich mit Methoden, wie man auf effiziente Weise ein Modell der Umgebung erlernen kann, ohne dabei unbedingt eine bestimmte Aufgabe zu erfüllen. Planung ist nötig, um in einem gegebenen oder durch Exploration erlernten Modell eine optimale Strategie zu entwerfen. Zu guter Letzt sollen komplexe Aufgaben in einfachere Teilaufgaben aufgeteilt werden, sodass die zusammengesetzten Lösungen der einzelnen Teilaufgaben letztendlich eine Lösung für die ursprüngliche Aufgabe bilden. Die entwickelten Algorithmen sollen in realistischen Problembereichen getestet und evaluiert werden, die sich mit der optimalen Verteilung von Energie in Netzwerken beschäftigen.
Ziel unseres Projektes ist es, Steuerungsstrategien mit lebenslanger Lernfähigkeit zu entwerfen. Solche Steuerungen ermöglichen es Systemen, sich an Veränderungen in ihrer Umgebung anzupassen und eine nahezu optimale Leistung aufrechtzuerhalten. Dieses Projekt beschäftigt sich mit Steuerungen, die in autonomen Systemen implementiert sind, beispielsweise in elektrischen Verteilungsnetzen. Eine solche Steuerung wählt wiederholt und fortlaufend Aktionen aus, um ein bestimmtes Ziel zu erreichen. Ein solches Ziel könnte die Vermeidung eines Blackouts bei gleichzeitig kostengünstiger Bereitstellung von Energie sein. Für ein statisches System - ein System ohne wesentlichen Veränderungen - kann eine nahezu optimale Steuerung berechnet werden. Zum Beispiel ist Reinforcement Learning eine Methode, um auch komplizierte Steuerungen zu berechnen. Jedoch werden Systeme, die über einen langen Zeitraum eingesetzt werden, voraussichtlich mit Veränderungen in ihrer Umgebung konfrontiert sein. Ziel unseres Projektes ist es daher, Steuerungsstrategien mit lebenslanger Lernfähigkeit zu entwerfen, damit Systeme in der Lage sind, sich an Veränderungen in ihrer Umgebung anzupassen und dabei eine nahezu optimale Leistung aufrechtzuerhalten. Ein Beispiel für ein solches System ist die Steuerung eines elektrischen Mikronetzes, das erneuerbare und konventionelle Stromquellen balancieren muss und gleichzeitig mit wechselnder Stromerzeugung und wechselndem Verbraucherverhalten konfrontiert ist. Ein solches Micro-Grid diente als Testumgebung für unsere Verfahren. Der Schwerpunkt unserer Arbeit in diesem Verbundforschungsprojekt liegt auf der Exploration: herauszufinden, welche Aktionen langfristig förderlich sind und welche Aktionen vermieden werden sollten. Exploration in einer sich ändernden Umgebung ist aber eine besondere Herausforderung, da bereits gesammelte Informationen nach einer Veränderung ungültig werden können. Um dieser Herausforderung zu begegnen, erweitern wir Methoden aus dem Reinforcement Learning und entwickeln dabei neue Explorationsstrategien, die Informationen nach einer Veränderung der Umgebung automatisch aktualisieren. Dabei ist wesentlich, dass unsere Methoden Veränderungen automatisch erkennen und die Exploration entsprechend steuern können. Reinforcement Learning beruht auf einem Belohnungsmodell, um Strategien zu trainieren: Die Strategie soll dabei langfristige die Belohnungen maximieren. In unseren Forschungsarbeiten setzen wir diesen Mechanismus auch für die inkrementelle Exploration, beispielsweise durch einen Roboter, ein. Inkrementelle Exploration bedeutet, dass zuerst die unmittelbare Umgebung und dann immer größere Teile der Umgebung erkundet werden. In großen Umgebungen ist eine kompakte und aussagekräftige Darstellung der Umgebung für effizientes Lernen äußerst wichtig: Denken Sie beispielsweise daran, sich sinnvolle Wörter beziehungsweise zufälligen Buchstabenfolgen zu merken. Leider sind für Reinforcement Learning gut geeignete Darstellungen der Umgebung oft nicht bekannt. Daher haben wir einen Algorithmus entwickelt, der automatisch die beste Darstellung für seine Umgebung auswählt.
- Montanuniversität Leoben - 100%
- Bertrand Cornélusse, Université de Liege - Belgien
- Michal Valko, Inria Lille - Nord Europe - Frankreich
- Anders Jonsson, Universitat Pompeu Fabra - Spanien
Research Output
- 11 Publikationen
-
2023
Titel Autonomous Exploration for Navigating in MDPs Using Blackbox RL Algorithms DOI 10.24963/ijcai.2023/413 Typ Conference Proceeding Abstract Autor Auer P Seiten 3714-3722 Link Publikation -
2018
Titel Efficient Bias-Span-Constrained Exploration-Exploitation in Reinforcement Learning DOI 10.48550/arxiv.1802.04020 Typ Preprint Autor Fruit R Link Publikation -
2020
Titel Regret Bounds for Reinforcement Learning via Markov Chain Concentration Typ Journal Article Autor Ortner Ronald Journal JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH Seiten 115-128 -
2022
Titel Adaptive Algorithms for Meta-Induction DOI 10.1007/s10838-021-09590-2 Typ Journal Article Autor Ortner R Journal Journal for General Philosophy of Science Seiten 433-450 Link Publikation -
2021
Titel Gambler Bandits and the Regret of Being Ruined. 20th Int. Conf. on Autonomous Agents and Multiagent Systems Typ Conference Proceeding Abstract Autor Perotto Fs Konferenz 20th Int. Conf. on Autonomous Agents and Multiagent Systems (AAMAS 2021) Link Publikation -
2020
Titel Regret Bounds for Reinforcement Learning via Markov Chain Concentration DOI 10.1613/jair.1.11316 Typ Journal Article Autor Ortner R Journal Journal of Artificial Intelligence Research -
2019
Titel Autonomous exploration for navigating in non-stationary CMPs Typ Other Autor Gajane P Link Publikation -
2019
Titel Regret Bounds for Learning State Representations in Reinforcement Learning Typ Conference Proceeding Abstract Autor Ortner R Konferenz 33rd Conf. on Neural Processing Systems (NeurIPS 2019) Link Publikation -
2019
Titel Achieving Optimal Dynamic Regret for Non-stationary Bandits without Prior Information Typ Conference Proceeding Abstract Autor Auer P Konferenz 32nd Ann. Conf. on Learning Theory (COLT 2019) Link Publikation -
2019
Titel Adaptively Tracking the Best Bandit Arm with an Unknown Number of Distribution Changes Typ Conference Proceeding Abstract Autor Auer P Konferenz 32nd Ann. Conf. on Learning Theory (COLT 2019) Link Publikation -
2019
Titel Variational Regret Bounds for Reinforcement Learning Typ Conference Proceeding Abstract Autor Gajane P Konferenz Conf. on Uncertainty in Artificial Intelligence (UAI 2019) Link Publikation