• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • ERA-NET TRANSCAN
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft BrainHealth
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol–Südtirol–Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

FFTED - Schnelle und flexible Edit-Distanz für Baumdaten

FFTED - Fast and Flexible Tree Edit Distance

Nikolaus Augsten (ORCID: 0000-0002-3036-6201)
  • Grant-DOI 10.55776/P29859
  • Förderprogramm Einzelprojekte
  • Status beendet
  • Projektbeginn 01.03.2017
  • Projektende 31.08.2022
  • Bewilligungssumme 388.836 €

Wissenschaftsdisziplinen

Informatik (100%)

Keywords

    Tree Edit Distance, Tree Similarity, Hierarchical Data, Similarity Search, Approximate Matching

Abstract Endbericht

Hierarchisch strukturierte Daten werden Bäume genannt. Ein Beispiel ist die hierarchische Organisation eines Unternehmens mit Abteilungen, Führungskräften und Mitarbeitern. Weitere Beispiele sind Anlagegüter von Unternehmen, Materialstücklisten, Syntaxbäume von natürlichen Sprachen oder Programmiersprachen, Dateiordner in Dateisystemen, sowie molekulare Strukturen in der Bioinformatik. Wenn sich Baumdaten ändern, werden neue Baumversion erzeugt. Die Differenzen zwischen zwei Versionen (auch als Diffs bezeichnet) festzustellen ist eine wichtige Aufgabe. Gute Diffs sind so prägnant wie möglich. Ein weit verbreiteter Ansatz ist die Edit-Distanz, welche das kleinstmögliche Diff berechnet. Die Berechnung des minimalen Diffs ist schwierig. Die derzeitigen Lösungen kranken an mangelnder Effizienz und Flexibilität, was deren praktischen Einsatz stark einschränkt. (1) Effizienz: Die Berechnung des minimalen Diffs ist zu langsam. Bei doppelter Baumgröße braucht die Berechnung mindestens vier mal so lang. Gängige Techniken sind für Bäume mit etwa 10.000 Elementen anwendbar, aber viele interessante Bäume bestehen aus Millionen von Elementen (z.B. Materialstücklisten). (2) Flexibilität: Die Edit-Distanz berechnet das kleinstmögliche Diff und ignoriert jedwede Anwendungssemantik, was zu nicht-intuitiven Ergebnissen führen kann, z.B. könnte eine Abteilung in einen Mitarbeiter umgewandelt werden, um das Diff klein zu halten. Verschiedene Lösungsversuche sind unternommen worden, die jedoch alle mindestens eine der folgenden Einschränkungen mit sich bringen: für mehr Geschwindigkeit muss Qualität geopfert werden (d.h. die Diffs sind unnötig lang) und der Qualitätsverlust wird nicht quantifiziert; die Anwendungssemantik ist fest in die Lösung eingebaut, was deren Einsatzfähigkeit auf sehr spezifische Anwendungen beschränkt; oder nur eines der beiden Probleme (Effizienz oder Flexibilität) wird angegangen. Ziel dieses Projektes ist es, die Effizienz- und Flexibilitätsprobleme der Edit-Distanz zu lösen ohne Qualität einzubüßen. Wir werden erlauben, anwendungsspezifische Bedingungen als Teil des Input zu formulieren (z.B. Abteilungen können nicht zu Mitarbeitern gemacht werden), und das minimale Diff, welches diese Bedingungen erfüllt, wird berechnet. Diese Flexibilität wird unsere Lösung für weite Anwendungsbereiche zugänglich machen. Um Effizienz zu erreichen, planen wir zwei bisher wenig beachtete Tatsachen zu nutzen: Zum einen betreffen Änderungen typischerweise nur kleine Bereiche eines Baumes.Indemwir uns aufdiese Bereiche konzentrieren, hoffen wir auf erhebliche Geschwindigkeitsvorteile. Zum anderen schränken Bedingungen die Anzahl der möglichen Diffs ein, was wir ebenfalls zur Steigerung der Effizienz nutzen wollen. Im Erfolgsfall wird unsere Lösung die erste Edit-Distanz mit benutzerdefinierten Bedingungen sein, welche das kleinstmögliche Diff effizient berechnen kann.

Ziel dieses Projekts war die Entwicklung von effizienten Techniken zur Beantwortung von Ähnlichkeitsanfragen über baumstrukturierte Daten. Die Baumstruktur von Daten ergibt sich durch hierarchische Abhängigkeiten, zum Beispiel gehört ein Autor immer zum dazugehörigen Buch und muss in diesem Kontext betrachtet werden. Die Vielzahl der Anwendungen, die baumstrukturierte Daten erfordern, führte zur Entwicklung von hierarchischen Datenformaten wie XML und JSON. Eine häufig gestellte Anfrage ermittelt Datenbäume basierend auf ihrer paarweisen Ähnlichkeit, welche durch die minimale Differenz zwischen den Bäumen definiert wird: der sogenannten Tree Edit Distance (TED). Anfragen mit TED führen zwar zu intuitiven Ergebnissen, sind aber zeitintensiv in der Berechnung aufgrund fehlender, effizienter Techniken zur Beantwortung dieser Anfragen. In diesem Projekt wurden mehrere neue Ansätze für gängige Ähnlichkeitsanfragen entwickelt, die den aktuellen Stand der Forschung erweitern und bisherige Lösungen in Bezug auf Laufzeit und Speicherverbrauch erheblich verbessern. (1) TopDiff: Oft muss die minimale Differenz zwischen Paaren von Bäumen berechnet werden, was jedoch eine kostspielige Operation darstellt. Der in diesem Projekt entwickelte TopDiff Algorithmus nützt die Ähnlichkeit der Bäume um die Berechnungszeit drastisch zu reduzieren. Die Berechnungszeit für ähnliche Bäume wächst linear in der Baumgröße, während bestehende TED Algorithmen ein kubisches Wachstum aufweisen. (2) SlimCone: Die Top-k Subtree Similarity Anfrage berechnet die k ähnlichsten Teilbäume eines Dokumentbaumes für einen gegebenen Anfragebaum. Bisherige Lösungen basieren auf Indextechniken mit großem Speicherverbrauch, was die Anwendbarkeit auf kleine Bäume einschränkt. Der im Projekt entwickelte SlimCone Index basiert auf einer neuen Idee, welche sowohl den Speicherverbrauch reduziert als auch die Berechnungszeit verringert. (3) TJoin: Der Tree Similarity Join identifiziert alle Baumpaare in einer Menge von Bäumen, welche einen TED Wert kleiner als einen benutzerdefinierten Grenzwert aufweisen. Diese Anfrage wird üblicherweise benutzt, um Duplikate in Daten zu identifizieren. Alle Baumpaare zu vergleichen skaliert nicht für große Datenmengen. Der von uns entwickelte TJoin Algorithmus nutzt einen Index und effiziente aber effektive Filtertechniken um einen Großteil der paarweisen TED Berechnungen zu vermeiden. Alle Paare, welche die Filter passieren, werden von einem neuen Verifikationsalgorithmus überprüft, der den gegebenen Grenzwert ausnutzt um die teuren TED Berechnungen zu vermeiden. Alle in diesem Projekt entwickelten Techniken wurden experimentell mit den bestehenden Lösungen verglichen; die Ergebnisse zeigen, dass die neuen Techniken gegenüber konkurrierenden Lösungen für große Datenmengen oft Laufzeitverbesserungen von mehreren Größenordnungen bringen.

Forschungsstätte(n)
  • Universität Salzburg - 100%
Internationale Projektbeteiligte
  • Alfons Kemper, TU München - Deutschland
  • Thomas Neumann, TU München - Deutschland
  • Helene Touzet, Cité Scientifique - Frankreich

Research Output

  • 133 Zitationen
  • 20 Publikationen
  • 4 Datasets & Models
  • 3 Wissenschaftliche Auszeichnungen
  • 2 Weitere Förderungen
Publikationen
  • 2019
    Titel A Link is not Enough – Reproducibility of Data
    DOI 10.1007/s13222-019-00317-8
    Typ Journal Article
    Autor Pawlik M
    Journal Datenbank-Spektrum
    Seiten 107-115
    Link Publikation
  • 2022
    Titel JEDI: These aren't the JSON documents you're looking for...
    DOI 10.1145/3514221.3517850
    Typ Conference Proceeding Abstract
    Autor Hütter T
    Seiten 1584-1597
    Link Publikation
  • 2022
    Titel JEDI: These aren't the JSON documents you're looking for...
    Typ Conference Proceeding Abstract
    Autor Augsten N
    Konferenz International Conference on Management of Data (SIGMOD)
    Seiten 1584-1597
    Link Publikation
  • 2021
    Titel Scalable Similarity Queries over Complex Data
    Typ PhD Thesis
    Autor Daniel Kocher
    Link Publikation
  • 2021
    Titel Similarity Queries over Hierarchical Data
    Typ PhD Thesis
    Autor Thomas Hütter
  • 2021
    Titel Scaling Density-Based Clustering to Large Collections of Sets
    Typ Conference Proceeding Abstract
    Autor Augsten N
    Konferenz International Conference on Extending Database Technology (EDBT)
    Seiten 109-120
    Link Publikation
  • 2019
    Titel A Scalable Index for Top-k Subtree Similarity Queries
    DOI 10.1145/3299869.3319892
    Typ Conference Proceeding Abstract
    Autor Kocher D
    Seiten 1624-1641
    Link Publikation
  • 2019
    Titel Effective Filters and Linear Time Verification for Tree Similarity Joins Thomas
    DOI 10.1109/icde.2019.00081
    Typ Conference Proceeding Abstract
    Autor Hütter T
    Seiten 854-865
  • 2019
    Titel A Scalable Index for Top-k Subtree Similarity Queries
    Typ Conference Proceeding Abstract
    Autor Augsten N
    Konferenz International Conference on Management of Data (SIGMOD)
    Seiten 1624-1641
    Link Publikation
  • 2019
    Titel Effective Filters and Linear Time Verification for Tree Similarity Joins
    Typ Conference Proceeding Abstract
    Autor Hütter T
    Konferenz International Conference on Data Engineering (ICDE)
    Seiten 854-865
    Link Publikation
  • 2019
    Titel Effective Filters and Linear Time Verification for Tree Similarity Joins
    Typ Conference Proceeding Abstract
    Autor Hütter T
    Konferenz International Conference on Data Engineering (ICDE)
    Seiten 854-865
  • 2019
    Titel SWOOP: Top-k Similarity Joins over Set Streams
    Typ Other
    Autor Augsten N
    Link Publikation
  • 2018
    Titel Set similarity joins on mapreduce
    DOI 10.14778/3231751.3231760
    Typ Journal Article
    Autor Fier F
    Journal Proceedings of the VLDB Endowment
    Seiten 1110-1122
  • 2017
    Titel A new perspective on the tree edit distance
    Typ Conference Proceeding Abstract
    Autor Pawlik M
    Konferenz International Conference on Similarity Search and Applications
    Seiten 156-170
    Link Publikation
  • 2020
    Titel DeSignate: detecting signature characters in gene sequence alignments for taxon diagnoses
    DOI 10.1186/s12859-020-3498-6
    Typ Journal Article
    Autor Hütter T
    Journal BMC Bioinformatics
    Seiten 151
    Link Publikation
  • 2020
    Titel Minimal Edit-Based Diffs for Large Trees
    Typ Conference Proceeding Abstract
    Autor Augsten N
    Konferenz International Conference on Information and Knowledge Management
    Seiten 1225-1234
    Link Publikation
  • 2018
    Titel A roadmap towards declarative similarity queries
    Typ Conference Proceeding Abstract
    Autor Augsten N
    Konferenz 21st International Conference on Extending Database Technology
    Link Publikation
  • 2020
    Titel Minimal Edit-Based Diffs for Large Trees
    DOI 10.1145/3340531.3412026
    Typ Conference Proceeding Abstract
    Autor Pawlik M
    Seiten 1225-1234
    Link Publikation
  • 2022
    Titel JEDI: These aren't the JSON documents you're looking for... (Extended Version*)
    DOI 10.48550/arxiv.2201.08099
    Typ Preprint
    Autor Hütter T
  • 2017
    Titel A New Perspective on the Tree Edit Distance
    DOI 10.1007/978-3-319-68474-1_11
    Typ Book Chapter
    Autor Schwarz S
    Verlag Springer Nature
    Seiten 156-170
Datasets & Models
  • 2020 Link
    Titel DeSignate
    Typ Computer model/algorithm
    Öffentlich zugänglich
    Link Link
  • 2020 Link
    Titel Additional file 1 of DeSignate: detecting signature characters in gene sequence alignments for taxon diagnoses
    DOI 10.6084/m9.figshare.12160239
    Typ Database/Collection of data
    Öffentlich zugänglich
    Link Link
  • 2020 Link
    Titel Additional file 1 of DeSignate: detecting signature characters in gene sequence alignments for taxon diagnoses
    DOI 10.6084/m9.figshare.12262484
    Typ Database/Collection of data
    Öffentlich zugänglich
    Link Link
  • 2019 Link
    Titel Tree Edit Distance Library
    Typ Computer model/algorithm
    Öffentlich zugänglich
    Link Link
Wissenschaftliche Auszeichnungen
  • 2020
    Titel Marshall Plan Scholarship
    Typ Research prize
    Bekanntheitsgrad Continental/International
  • 2019
    Titel ACM SIGMOD 2019 Reproducibility Package
    Typ Research prize
    Bekanntheitsgrad Continental/International
  • 2019
    Titel Young Investigators Award
    Typ Research prize
    Bekanntheitsgrad Regional (any country)
Weitere Förderungen
  • 2020
    Titel Austrian Marshall Plan Scholarship
    Typ Fellowship
    Förderbeginn 2020
  • 2021
    Titel DESQ - Declarative and Efficient Similarity Queries
    Typ Research grant (including intramural programme)
    Förderbeginn 2021

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • Impressum
  • IFG-Formular
  • Social Media Directory
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF