Eine neue modulare Architektur für das Data Mining
A New Modular Architecture for Data Mining
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
ARTIFICIAL INTELLIGENCE,
MASCHINELLES LERNEN,
DATA MINING
Ziel des Projekts ist die Entwicklung eines neuen, flexibleren Modells des Data Mining sowie die Realisierung des Modells in einer modularen Softwarearchitektur. Data Mining oder Knowledge Discovery in Databases (KDD) liegt im Schnittbereich von Artificial Intelligence (speziell: Maschinelles Lernen), Statistik und Datenbanken und beschäftigt sich mit Methoden zum Entdecken von Mustern und Regelmäßigkeiten ("Wissen") in großen Datenmengen. In letzter Zeit häufen sich die Berichte über erfolgreiche Data-Mining-Anwendungen in Wirtschaft, Industrie und Wissenschaft. Die Anwendung von Data-Mining-Methoden auf komplexe reale Probleme ist allerdings immer noch ein sehr aufwendiger Prozeß, der ein hohes Maß an Expertise und Zeiteinsatz vom Benützer verlangt. Erfolgreiches Data Mining beinhaltet die Konfiguration und Anpassung eines komplexen Systems von Lernalgorithmen und statistischen Methoden. Derzeitige Data-Mining-Tools (und das derzeit gängige abstrakte KDD-Prozeßmodell) unterstützen diesen Prozeß kaum, da sie Steuerung und Anpassung nur auf einem sehr groben Abstraktionsniveau erlauben. Detailliertere Steuerungsmöglichkeiten würden in vielen Fällen bessere Resultate ermöglichen, würden andererseits aber auch einen "normalen" Benutzer mit einer Unzahl von Möglichkeiten und notwendigen Entscheidungen konfrontieren. Die Problematik, die das vorliegende Projekt motiviert, ist also eine. doppelte: (1) mangelnde Flexibilität derzeitiger Methoden und Tools und (2) das Fehlen von Methoden zur Benutzerführung durch diesen komplexen und interaktiven Data-Mining-Prozeß. Das vorgeschlagene Forschungsprojekt soll zur Lösung dieser Probleme beitragen, und zwar durch die Entwicklung eines neuen modularen Modells des Data Mining, das Analyse, Synthese und Steuerung von Data-Mining-Prozeß und Methoden auf einem adäquateren Abstraktionsniveau ermöglicht. In einer großangelegten Studie werden wir zunächst versuchen, ein allgemeines `Vokabular` von abstrakten Basisfunktionalitäten (funktionalen `Bausteinen`) zu entwickeln, mit dessen Hilfe Data-Mining-Algorithmen modular beschrieben werden können. Auf der Basis dieses funktionalen Vokabulars werden wir sodann in ausgedehnten Experimenten neue Algorithmen studieren, die sich durch systematische Kombination und Integration individueller Methoden ergeben. Eigentliches Endziel dieses Projekts ist eine Data-Mining-Architektur, die leicht an die Erfordernisse der jeweiligen Anwendung angepaßt werden kann. Dazu werden wir - wieder auf der Grundlage der genannten funktionalen Bausteine - allgemeine Verfahren zur flexiblen (und teilweise automatischen) Konfiguration und Anpassung von Data-Mining- Algorithmen entwickeln. Und schließlich werden wir Möglichkeiten zur Führung des Benutzers durch diesen großen Raum von Methoden und -kombinationen untersuchen (z.B. durch automatisches exploratives Experimentieren durch das System selbst oder durch Anwendung von `Meta-Lernmethoden auf die Ergebnisse systematischer Experimente). Zusammenfassend lauten die Ziele des hier vorgeschlagenen Forschungsprojekts also wie folgt: Entwicklung eines modularen Modells des Data Mining auf einem neuen, adäquateren Abstraktionsniveaus; Entwicklung von Verfahren für die flexible Spezifikation und Realisierung von problemspezifischen Algorithmen und - kombinationen; sowie Ansätze zur Anleitung des Benutzers bei Auswahl und Konfiguration der optimalen Methoden in einem konkreten Anwendungsfall. Zusätzliches konkretes Resultat des Projekts wird eine implementierte, modulare Softwarearchitektur für Data-Mining-Experimente und -Anwendungen sein, die die Konfiguration neuer Algorithmen und komplexer Strategien aus abstrakten funktionalen Bausteinen und auch eine engere Integration verschiedener Methoden ermöglichen wird. Dies wird in großangelegten Experimenten mit verschiedenen Datensammlungen aus diversen Anwendungsbereichen erprobt und demonstriert werden.
Research Output
- 4 Zitationen
- 1 Publikationen
-
2002
Titel Exploring the Parameter State Space of Stacking DOI 10.1109/icdm.2002.1184029 Typ Conference Proceeding Abstract Autor Seewald A Seiten 685-688