Moderne Datenanalyse auf computationalen Grids
Advanced Data Analysis on Computational Grids
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Computational grids,
OLAP,
Parallel a. distributed query evaluation,
Virtual Data Cubes,
Grand-challenge applications,
Data Analysis
Komputationale Grids sind föderierte, geographisch vertielte, heterogene Hardware, Software, Datenbanken und andere Resourcen, deren Verwendung im akdemischen Bereich zwischen internationalen Forschungseinrichtungen und selbst in kommerziellen Anwendungen zunehmend Verbreitung findet. Basierend auf dem Internet und World Wide Web, wird das Grid als die Infrastruktur fuer wissenschaftliche und Geschäftsanwendungen im 21. Jahrhundert angesehen. Während die Grid-Forschung bisher primär grand-challenge Probleme zu lösen versuchte, verlagert sich nunmehr der Fokus von rein wissenschaftlichen Anwendungen näher an alltägliche Aufgabenstellungen. Das hier vorgeschlagene Projekt zielt darauf hin ab, den heutigen Stand der grid Technologien um neue, gesellschaftlich relevante Anwendungsbereiche zu erweitern. Es wird neuartige Konzepte zur Knowledge Discovery in Datenbanken und anderen großen Datensammlungen im Grid entwickeln und diese bewerten. Das Projekt fokusiert dabei seine Anstrengungen auf Data Mining und OLAP, zwei komplementäre Techniken, die gemeinsam angewendet hocheffiziente und aussagekräftige Datenanlyse ermöglichen. Diese beiden Technologien sollen im Rahen einer experimentellen Infrastruktur namens GridMiner entwickelt und erprobt werden, die auf anderen Diensten des Grids aufbauen soll. Das Projekt soll auch eine neue Architekturstufe des Grids entwickeln um OLAP Datenstrukturen zu verwalten und Daten aus verschiedenen, heterogenen Quellen zu integrieren. Die Unterstützung für Knowledge Discovery und Wissensrepresentation soll in dieser Ebene des Knowlegde Grids verfügbar gemacht werden. Parallele und verteilte Query Evaluationstechniken und Optimierungen, wie OLAP Aggregationen und Caching von Ergebnissen, sollen erweitert und adaptiert werden um hohe leistung und gute Skalierbarkeit zu garantieren, selbst wenn in wissenschaftlichen und kommerziellen Großanwendungen häufig auftretende Größenordnungen von Datenmengen erreicht werden.
Als Grid Infrastruktur, bezeichnet man den Zusammenschluss geografisch verteilter heterogener Hardware, Software, Datenbanken und anderer Ressourcen zur Erreichung gemeinsamer wissenschaftlicher Ziele. Diese Entwicklung gilt als entscheidende und revolutionäre Technologie für das 21. Jahrhundert und wird mit beachtlichem Umfang in wissenschaftlichen, kommerziellen, industriellen und technischen Bereichen vorangetrieben. Diese Forschungsarbeit begründet sich durch wissenschaftliche Herausforderungen und neuartige Anwendungen welche ohne die Unterstützung solcher Technologien nicht gelöst werden könnten. Dieses Projekt befasst sich mit der Erforschung von Mechanismen zur Wissensfindung in im Grid integrierter Datenbanken. In vielerlei Bereichen, wie zum Beispiel rechenintensiven Simulationen oder Experimenten mit neuen Generationen an hochauflösenden wissenschaftlicher Instrumenten werden enorme Datenmengen (oft im mehrfachen Terabyte Bereich) generiert. Zum Verständnis und der Gewinnung von Wissen aus diesen großen, oft geografisch verteilten, Datenmengen werden hochentwickeltes Datenmanagement, intelligente Datenreduktion, Vorverarbeitung und Datenintegration, sowie performante Wissensfindungsmethoden und neuartige Softwaremechanismen zur effizienten Spezifikation und Koordination von Analyseprozessen benötigt. Dieses Projekt untersuchte daher die dafür erforderlichen Aspekte und entwickelte eine neuartige Forschungsinfrastruktur namens GridMiner, welche auf bereits entwickelten Algorithmen, sowie Spezifikationsmethoden und Formalismen für Arbeitsabläufe (workflows) basiert. Diese Infrastruktur umfasst Dienste für sequentielle, parallele und verteilte Wissensfindung, On-Line Analytical Processing (OLAP), Datenintegration basierend auf Mediator/Wrapper Ansätzen, Qualitätsüberwachung und Datenaufarbeitung mittels spezieller Statistiken, Visualisierung und Analyseverfahren. Ein besonderes Ziel der Forschungsarbeit bestand in der Integration aller benötigten Dienste zu einer interaktiven und automatisierten Ausführung der Arbeitsabläufe. GridMiner Anwender können nun auf eine grafischen Benutzeroberfläche (sowie andere Mechanismen) zurückgreifen um ihren persönlichen Bedürfnissen entsprechende Arbeitsabläufe zu erstellen und auszuführen - auch ein Internetportal zum GridMiner ist verfügbar. Die gesamte Forschung und Entwicklung wurde in Zusammenarbeit mit weltweit führenden Forschungs- und Anwendergruppen im Bereich Grid Computing durchgeführt. Zu Pilotanwendungen, welche direkt von den Projektergebnissen profitieren, zählen die Bereiche Medizin (Krebsforschung, Schädeltraumata, neurologische Krankheiten und kognitive Neurowissenschaften) sowie Ökologie (Umweltüberwachung und Ereignis-vorhersagen).
- Technische Universität Wien - 100%
- Kurt Stockinger, CERN - Schweiz
Research Output
- 2 Zitationen
- 1 Publikationen
-
2004
Titel Towards Service Collaboration Model in Grid-based Zero Latency Data Stream Warehouse (GZLDSWH) DOI 10.1109/scc.2004.1358025 Typ Conference Proceeding Abstract Autor Nguyen T Seiten 357-365