LAUNDRY - Das Lixto Web Data Cleaning Framework
LAUNDRY - Das Lixto Web Data Cleaning Framework
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Data Cleaning,
Record Linkkage,
Normierung,
Webdatenextraktion,
Änlichkeitsmaße,
Data Fusion
Im Projekt LAUNDRY wird ein Framework für Data Cleaning mit Schwerpunkt Webdaten entworfen und prototypisch implementiert. Teilkomponenten zur strukturellen, semantischen und syntaktischen Normierung, der Tokenisierung, Dublettenerkennung, Säuberung von Inkonsistenzen und Zusammenführung von Daten werden entwickelt. Techniken, Methoden und Werkzeuge zum Data Cleaning werden auf ihre Effizienz und Performanz untersucht und dementsprechend eingesetzt und neue Techniken für bestimmte Teilbereiche der Problematik entwickelt. Die Stärken des LAUNDRY Systems liegen einerseits im offenen und modular konfigurierbaren Framework, andererseits auch in der interaktiven Generierung von Cleaning Komponenten, und in Cleaning Erweiterungen für die Lixto Suite, einer Software für die Extraktion und Weiterverarbeitung von Webdaten. Das LAUNDRY System bietet für alle Phasen des Data Cleaning Unterstützung mit effizienten Algorithmen und kann mit neuen Algorithmen erweitert werden. Das Data Cleaning Framework wird primär für die Säuberung von Webdaten, die aus verschiedensten Quellen stammen, verwendet werden, die mittels der Lixto Suite extrahiert wurden. Die Lixto Suite erlaubt die Konfiguration und Ausführung von Datenextraktion aus dem Web. In vielen Applikationsszenarien wie z.B. in Competitive Intelligence Applikationen, hat es sich herausgestellt, dass Webdaten sehr heterogener Natur sind und neben anspruchsvollen Techniken der Extraktion aus semistrukturierten Daten auch Methoden zum Säubern von Inkonsistenzen, zur Normierung, zum Finden von Duplikaten und ähnlichen Problemen notwendig sind. Mit LAUNDRY wird es möglich diese Problematik abzudecken. Dadurch werden Webdaten in Enterprise Datenbanken und Anwendungsszenarien wie Competitive Intelligence (Produktvergleiche, Preisvergleiche) noch effizienter und einfacher nutzbar.
- Gilbert Hödl, assoziierte:r Forschungspartner:in