Algorithmen zur topologische Datenanalyse
Algorithms for topological data analysis
Wissenschaftsdisziplinen
Informatik (45%); Mathematik (55%)
Keywords
-
Topological Data Analysis,
Persistent Homology,
Computational Topology,
Computational Geometry,
Algorithm Engineering,
Mathematical Software
In der heutigen Zeit werden ununterbrochen riesige Datenmengen generiert. Zum Beispiel werden auf YouTube 300 Stunden Videomaterial hochgeladen - pro Minute! Bei diese Datenmassen benötigt man intelligente Methoden, um die relevanten Informationen aus einer Datensammlung zu extrahieren; diese Prozedur wird als Datenanalyse bezeichnet. Zu den Anwendungsbereichen zählen Empfehlungssysteme für Nutzer von Audio- oder Videostreamseiten oder die automatisierte Erkennung von Anomalien bei Überwachungskameras. In den letzten 15 Jahren wurde ein neuer und vielleicht überraschender Ansatz zur Datenanalyse entwickelt: die qualitativen Eigenschaften einer Datenmenge werden mit Hilfe der mathematischen Theorie der Topologie untersucht. Die grobe Idee beteht darin, die Daten in eine geometrische Form zu transformieren und dann zu untersuchen, wie diese Form verbunden ist. Zum Beispiel sind ein Ball und ein Donut verschiedenartig verbunden, weil letzterer ein Loch in seiner Mitte hat. Eine solche topologischen Analyse offenbart oftmals relevante Information über die zugrundeliegenden Daten, wie durch eine Vielzahl von Anwendungsbeispielen aufgezeigt wurde, z.B. in der Biologie, Physik oder Computergrafik. Jedoch braucht die Comouterberechnung der topologischen Eigenschaften für große Daten eine lange Zeit, was den Einsatz dieser Methoden auf eher kleine Beispiel reduziert. Das Ziel des Projekts ist es, dies zu ändern: wir möchten Computerprogramme entwickeln, die Datenmengen verarbeiten können, welche mit heutiger Technologie nicht zu bewerkstelligen sind. Auf diese Weise erweitern wir erheblich die potentiellen Anwendungsgebiete, in denen topologische Datenanalyse neue Einsichten liefern kann. Ein solcher Fortschritt benötigt neuartige Wege um die relevante topologische Information einer Datenmenge zu berechnen. Um die Vorteile unserer entwickelten Methoden zu verifizieren, werden wir diese mit den Werkzeugen der theoretischen Informatik untersuchen; gleichzeitg werden wir sie mit existierenden Methoden auf realistischen Datenmengen vergleichen. Letzteres erscheint vielleicht als das natürlichere Qualitätsmerkmal, jedoch ist ersteres von ebensogrosser Bedeutung, da es einen Vergleich von Berechnungsmethoden auf allen potentiellen zukünftigen Eingaben erlaubt, während Experimente nur das Verhalten auf derzeit verfügbaren Eingaben wiedergeben. Lösungen, die in beiden Varianten überlegen sind, liefern langfristig wertvollere Beiträge zum Forschungsgebiet. Dieses Projekt hat einen bemerkenswert interdisziplinären Charakter, indem es algebraische Topologie, Datenanalyse, Geometrie, theoretische Informatik und Softwareentwicklung zusammenbringt. Es etabliert effiziente Berechnung als Brückenschlag zwischen abstrakter Mathematik und realen Anwendungsbereichen und ebnet den Weg für topologische Methoden als Standardwerkzeug im Kontext der Datenanalyse.
In diesem Projekt haben wir uns zum Ziel gesetzt, algorithmische Fragestellungen im Bereich der topologischen Datenanalyse zu untersuchen und die Grenzen des Machbaren zu verschieben. Dabei verwendeten wir sowohl Methoden der theoretischen Informatik als auch des Algorithm Engineering, um diese Fragestellungen aus verschiedenen Blickwinkeln zu beleuchten. Wir stellen einige der Hauptresultate kurz vor: (1) Ein Hauptproblem der topologischen Datenanalyse ist die Berechnung von persistenten Barcodes. Dabei existiert eine Diskrepanz zwischen der theoretischen Komplexitaet des Problems (der Algorithmus braucht im schlimmsten Fall kubisch viel Zeit bezueglich der Eingabegroesse) und der praktisch beobachteten Komplexitaet auf realen Daten (linear und damit - zum Glueck - sehr schnell). Wir konnten zeigen, dass die Komplexitaet der Barcodeberechnung unter natuerlichen Modellen im Erwartungswert besser ist als kubisch. Das heisst, wir konnten die folkloristische Aussage, dass worst-case Instanzen "selten" sind, mathematisch praezise fassen und mit Hilfe von probabilistischer Topologie beweisen. (2) Multi-parameter Persistenz ist ein Teilbereich der topologischen Datenanalyse mit wachsender Bedeutung. Ein ungeloestes Hauptproblem in diesem Bereich war die Frage der effizienten Berechnung der Interleavingdistanz zwischen zwei Instanzen. Diese Frage ist bedeutend, da die Interleavingdistanz in einem gewissen mathematisch beweisbaren Sinn das "beste" Distanzmass darstellt. Wir konnten beweisen, dass die Berechnung dieser Distanz NP-schwer ist, ebenso wie die Approximation dieser Distanz bis auf einen Faktor von 3. Dieses Resultat sagt also, dass die Existenz eines effizienter Algorithmus sehr unwahrscheinlich ist. Ein positiver Effekt dieses Resultats ist, dass sich Forscher nun auf andere Distanzmasse konzentrieren koennen. Unser Projekt hat ebenfalls fuer die alternative Matchingdistanz mehrere effiziente Algorithmen vorgeschlagen. (3) Ein wichtiger Baustein fuer die schnelle Berechnung mit Daten ist Kompression: wie laesst sich die topologische Essenz eines Datensatzes moeglichst effizient beschreiben? Fuer multi-parametrisierte Datensaetze haben wir hier ein Verfahren entwickelt. Es komprimiert Datensaetze von mehreren Gigabytes Groesse in wenigen Sekunden, ohne die topologischen Eigenschaften zu aendern. Damit wird die Analyse eines Datensatzes erheblich erleichtert. Unsere Software ist frei verfuegbar. Die Vielzahl an bedeutenden erreichten Resultaten gibt uns Recht, dass unser ganzheitlicher Ansatz erfolgreich war. Wir erwarten, dass unsere Resultate, sowohl theoretischer als auch praktischer Natur, das Forschungsfeld in der Zukunft voranbringen werden und weitere Anwendungen von persistenter Homologie in der Datenanalyse ermoeglichen werden. Da die topologische Datenanalyse sehr vielseitig eingesetzt wird (in praktisch allen Naturwissenschaften und darueber hinaus) haben unsere Resultaten eine indirekte Auswirkung weit ueber den Bereich der algorithmischen Topologie hinaus.
- Technische Universität Graz - 100%
- Jean-Daniel Boissonnat, INRIA Sophia Antipolis - Frankreich
- Pawel Dlotko, Polish Academy of Sciences - Polen
- Dmitriy Morozov, Lawrence Berkeley National Laboratory - Vereinigte Staaten von Amerika
- Peter Bubenik, University of Florida - Vereinigte Staaten von Amerika
- Sharath Raghvendra, Virginia Polytechnic Institute and State University - Vereinigte Staaten von Amerika
Research Output
- 2334 Zitationen
- 61 Publikationen
- 1 Software
- 2 Wissenschaftliche Auszeichnungen
- 1 Weitere Förderungen
-
2025
Titel Expected Complexity of Barcode Reduction DOI 10.1007/s41468-025-00218-8 Typ Journal Article Autor Giunti B Journal Journal of Applied and Computational Topology Seiten 29 Link Publikation -
2019
Titel Topology-Preserving Terrain Simplification DOI 10.48550/arxiv.1912.03032 Typ Preprint Autor Fugacci U -
2019
Titel Discrete Morse Theory for Computing Zigzag Persistence DOI 10.1007/978-3-030-24766-9_39 Typ Book Chapter Autor Maria C Verlag Springer Nature Seiten 538-552 -
2019
Titel A kernel for multi-parameter persistent homology DOI 10.1016/j.cagx.2019.100005 Typ Journal Article Autor Corbet R Journal Computers & Graphics: X Seiten 100005 Link Publikation -
2018
Titel Barcodes of Towers and a Streaming Algorithm for Persistent Homology DOI 10.1007/s00454-018-0030-0 Typ Journal Article Autor Kerber M Journal Discrete & Computational Geometry Seiten 852-879 Link Publikation -
2025
Titel Expected Complexity of Persistence Barcode Computation via Matrix Reduction DOI 10.48550/arxiv.2111.02125 Typ Preprint Autor Giunti B -
0
DOI 10.1145/3397536 Typ Other -
0
DOI 10.1145/3476446 Typ Other -
2023
Titel A unified view on the functorial nerve theorem and its variations DOI 10.1016/j.exmath.2023.04.005 Typ Journal Article Autor Bauer U Journal Expositiones Mathematicae Seiten 125503 -
2023
Titel Computing the Multicover Bifiltration DOI 10.1007/s00454-022-00476-8 Typ Journal Article Autor Corbet R Journal Discrete & Computational Geometry Seiten 376-405 Link Publikation -
2021
Titel Notes on Pivot Pairing Typ Conference Proceeding Abstract Autor Giunti B Konferenz 37th European Workshop on Computational Geometry -
2021
Titel Computing the multicover bifiltration Typ Conference Proceeding Abstract Autor Corbet R Konferenz 37th International Symposium on Computational Geometry Seiten 27:1-27:17 Link Publikation -
2025
Titel Stable and consistent density-based clustering via multiparameter persistence DOI 10.48550/arxiv.2005.09048 Typ Preprint Autor Rolle A -
2024
Titel Amplitudes in persistence theory DOI 10.1016/j.jpaa.2024.107770 Typ Journal Article Autor Giunti B Journal Journal of Pure and Applied Algebra Seiten 107770 Link Publikation -
2019
Titel Proceedings of the Thirtieth Annual ACM-SIAM Symposium on Discrete Algorithms DOI 10.1137/1.9781611975482 Typ Book editors Chan T Verlag Society for Industrial & Applied Mathematics (SIAM) Link Publikation -
2019
Titel Exact computation of the matching distance on 2-parameter persistence modules Typ Conference Proceeding Abstract Autor Kerber M Konferenz 35th International Symposium on Computational Geometry Seiten 46:1-46:15 Link Publikation -
2019
Titel Chunk Reduction for Multi-Parameter Persistent Homology Typ Conference Proceeding Abstract Autor Fugacci U Konferenz 35th International Symposium on Computational Geometry Seiten 37:1-37:14 Link Publikation -
2019
Titel Local-Global Merge Tree Computation with Local Exchanges DOI 10.1145/3295500.3356188 Typ Conference Proceeding Abstract Autor Nigmetov A Seiten 1-13 Link Publikation -
2019
Titel Computing the Interleaving Distance is NP-Hard DOI 10.1007/s10208-019-09442-y Typ Journal Article Autor Bjerkevik H Journal Foundations of Computational Mathematics Seiten 1237-1271 Link Publikation -
2018
Titel The representation theorem of persistence revisited and generalized DOI 10.1007/s41468-018-0015-3 Typ Journal Article Autor Corbet R Journal Journal of Applied and Computational Topology Seiten 1-31 Link Publikation -
2017
Titel Improved Approximate Rips Filtrations with Shifted Integer Lattices DOI 10.48550/arxiv.1706.07399 Typ Preprint Autor Choudhary A -
2020
Titel Metric Spaces with Expensive Distances DOI 10.1142/s0218195920500077 Typ Journal Article Autor Kerber M Journal International Journal of Computational Geometry & Applications Seiten 141-165 Link Publikation -
2019
Titel Improved Topological Approximations by Digitization; In: Proceedings of the Thirtieth Annual ACM-SIAM Symposium on Discrete Algorithms DOI 10.1137/1.9781611975482.166 Typ Book Chapter Verlag Society for Industrial and Applied Mathematics -
2019
Titel Exact Computation of the Matching Distance on 2-Parameter Persistence Modules DOI 10.4230/lipics.socg.2019.46 Typ Conference Proceeding Abstract Autor Kerber M Konferenz LIPIcs, Volume 129, SoCG 2019 Seiten 46:1 - 46:15 Link Publikation -
2019
Titel Chunk Reduction for Multi-Parameter Persistent Homology DOI 10.4230/lipics.socg.2019.37 Typ Conference Proceeding Abstract Autor Fugacci U Konferenz LIPIcs, Volume 129, SoCG 2019 Seiten 37:1 - 37:14 Link Publikation -
2020
Titel Stable and consistent density-based clustering Typ Other Autor Rolle A Link Publikation -
2020
Titel Efficient Approximation of the Matching Distance for 2-parameter persistence Typ Conference Proceeding Abstract Autor Kerber M Konferenz 36th International Symposium on Computational Geometry Seiten 53:1-53:16 Link Publikation -
2020
Titel Efficient Approximation of the Matching Distance for 2-Parameter Persistence DOI 10.4230/lipics.socg.2020.53 Typ Conference Proceeding Abstract Autor Kerber M Konferenz LIPIcs, Volume 164, SoCG 2020 Seiten 53:1 - 53:16 Link Publikation -
2020
Titel Exact computation of the matching distance on 2-parameter persistence modules DOI 10.20382/jocg.v11i2a2 Typ Other Autor Kerber M Link Publikation -
2018
Titel Chunk Reduction for Multi-Parameter Persistent Homology DOI 10.48550/arxiv.1812.08580 Typ Preprint Autor Fugacci U -
2018
Titel Exact computation of the matching distance on 2-parameter persistence modules DOI 10.48550/arxiv.1812.09085 Typ Preprint Autor Kerber M -
2018
Titel Discrete Morse Theory for Computing Zigzag Persistence DOI 10.48550/arxiv.1807.05172 Typ Preprint Autor Maria C -
2018
Titel A Kernel for Multi-Parameter Persistent Homology DOI 10.48550/arxiv.1809.10231 Typ Preprint Autor Corbet R -
2018
Titel A Note on Planar Monohedral tilings Typ Conference Proceeding Abstract Autor Aichholzer O Konferenz 34th European Workshop on Computational Geometry Seiten 31:1-31:6 Link Publikation -
2018
Titel Improved Topological Approximations by Digitization DOI 10.48550/arxiv.1812.04966 Typ Preprint Autor Choudhary A -
2018
Titel Computing the interleaving distance is NP-hard DOI 10.48550/arxiv.1811.09165 Typ Preprint Autor Bjerkevik H -
2020
Titel Topology-Preserving Terrain Simplification DOI 10.1145/3397536.3422237 Typ Conference Proceeding Abstract Autor Fugacci U Seiten 36-47 Link Publikation -
2020
Titel Decomposing filtered chain complexes: geometry behind barcoding algorithms DOI 10.48550/arxiv.2012.01033 Typ Preprint Autor Chachólski W -
2022
Titel Keeping it sparse: Computing Persistent Homology revisited DOI 10.48550/arxiv.2211.09075 Typ Preprint Autor Bauer U -
2022
Titel Average Complexity of Matrix Reduction for Clique Filtrations DOI 10.1145/3476446.3535474 Typ Conference Proceeding Abstract Autor Giunti B Seiten 187-196 Link Publikation -
2022
Titel A Unified View on the Functorial Nerve Theorem and its Variations Typ Other Autor Bauer U Link Publikation -
2022
Titel Average complexity of matrix reduction for clique filtrations Typ Conference Proceeding Abstract Autor Giunti B Konferenz 47th International Symposium on Symbolic and Algebraic Computation -
2022
Titel A Unified View on the Functorial Nerve Theorem and its Variations DOI 10.48550/arxiv.2203.03571 Typ Preprint Autor Bauer U -
2021
Titel Amplitudes in persistence theory DOI 10.48550/arxiv.2107.09036 Typ Preprint Autor Giunti B -
2021
Titel Compression for 2-Parameter Persistent Homology DOI 10.48550/arxiv.2107.10924 Typ Preprint Autor Fugacci U -
2021
Titel Computing the Multicover Bifiltration DOI 10.48550/arxiv.2103.07823 Typ Preprint Autor Corbet R -
2021
Titel Improved Approximate Rips Filtrations with Shifted Integer Lattices and Cubical Complexes DOI 10.48550/arxiv.2105.05151 Typ Preprint Autor Choudhary A -
2023
Titel Discrete Morse Theory for Computing Zigzag Persistence DOI 10.1007/s00454-023-00594-x Typ Journal Article Autor Maria C Journal Discrete & Computational Geometry Seiten 708-737 Link Publikation -
2023
Titel Pruning vineyards: updating barcodes and representative cycles by removing simplices DOI 10.48550/arxiv.2312.03925 Typ Preprint Autor Giunti B -
2023
Titel Decomposing filtered chain complexes: Geometry behind barcoding algorithms DOI 10.1016/j.comgeo.2022.101938 Typ Journal Article Autor Chachólski W Journal Computational Geometry Seiten 101938 Link Publikation -
2023
Titel Compression for 2-parameter persistent homology DOI 10.1016/j.comgeo.2022.101940 Typ Journal Article Autor Fugacci U Journal Computational Geometry Seiten 101940 Link Publikation -
2021
Titel Notes on pivot pairings DOI 10.48550/arxiv.2101.00451 Typ Preprint Autor Giunti B -
2021
Titel Improved approximate rips filtrations with shifted integer lattices and cubical complexes DOI 10.1007/s41468-021-00072-4 Typ Journal Article Autor Choudhary A Journal Journal of Applied and Computational Topology Seiten 425-458 Link Publikation -
2021
Titel Improved approximate rips filtrations with shifted integer lattices and cubical complexes DOI 10.17169/refubium-30499 Typ Other Autor Choudhary A Link Publikation -
2021
Titel Fast Minimal Presentations of Bi-graded Persistence Modules; In: 2021 Proceedings of the Workshop on Algorithm Engineering and Experiments (ALENEX) DOI 10.1137/1.9781611976472.16 Typ Book Chapter Verlag Society for Industrial and Applied Mathematics -
2021
Titel Computing the Multicover Bifiltration DOI 10.4230/lipics.socg.2021.27 Typ Conference Proceeding Abstract Autor Corbet R Konferenz LIPIcs, Volume 189, SoCG 2021 Seiten 27:1 - 27:17 Link Publikation -
2017
Titel Barcodes of Towers and a Streaming Algorithm for Persistent Homology DOI 10.48550/arxiv.1701.02208 Typ Preprint Autor Kerber M -
2017
Titel Improved Approximate Rips Filtrations with Shifted Integer Lattices DOI 10.4230/lipics.esa.2017.28 Typ Conference Proceeding Abstract Autor Choudhary A Konferenz LIPIcs, Volume 87, ESA 2017 Seiten 28:1 - 28:13 Link Publikation -
2017
Titel Barcodes of Towers and a Streaming Algorithm for Persistent Homology DOI 10.4230/lipics.socg.2017.57 Typ Conference Proceeding Abstract Autor Kerber M Konferenz LIPIcs, Volume 77, SoCG 2017 Seiten 57:1 - 57:16 Link Publikation -
2017
Titel Polynomial-Sized Topological Approximations Using the Permutahedron DOI 10.1007/s00454-017-9951-2 Typ Journal Article Autor Choudhary A Journal Discrete & Computational Geometry Seiten 42-80 Link Publikation -
2017
Titel The Representation Theorem of Persistent Homology Revisited and Generalized DOI 10.48550/arxiv.1707.08864 Typ Preprint Autor Corbet R
-
2020
Link
Titel Reeber v2.0 DOI 10.11578/dc.20210301.26 Link Link
-
2022
Titel Distinguished Student Author Award of ISSAC 2022 Typ Research prize Bekanntheitsgrad Continental/International -
2019
Titel Best paper award at SMI 2019 Typ Research prize Bekanntheitsgrad Continental/International
-
2021
Titel Multi-parameter Persistent Homology Typ Research grant (including intramural programme) Förderbeginn 2021