FFTED - Schnelle und flexible Edit-Distanz für Baumdaten
FFTED - Fast and Flexible Tree Edit Distance
Wissenschaftsdisziplinen
Informatik (100%)
Keywords
-
Tree Edit Distance,
Tree Similarity,
Hierarchical Data,
Similarity Search,
Approximate Matching
Hierarchisch strukturierte Daten werden Bäume genannt. Ein Beispiel ist die hierarchische Organisation eines Unternehmens mit Abteilungen, Führungskräften und Mitarbeitern. Weitere Beispiele sind Anlagegüter von Unternehmen, Materialstücklisten, Syntaxbäume von natürlichen Sprachen oder Programmiersprachen, Dateiordner in Dateisystemen, sowie molekulare Strukturen in der Bioinformatik. Wenn sich Baumdaten ändern, werden neue Baumversion erzeugt. Die Differenzen zwischen zwei Versionen (auch als Diffs bezeichnet) festzustellen ist eine wichtige Aufgabe. Gute Diffs sind so prägnant wie möglich. Ein weit verbreiteter Ansatz ist die Edit-Distanz, welche das kleinstmögliche Diff berechnet. Die Berechnung des minimalen Diffs ist schwierig. Die derzeitigen Lösungen kranken an mangelnder Effizienz und Flexibilität, was deren praktischen Einsatz stark einschränkt. (1) Effizienz: Die Berechnung des minimalen Diffs ist zu langsam. Bei doppelter Baumgröße braucht die Berechnung mindestens vier mal so lang. Gängige Techniken sind für Bäume mit etwa 10.000 Elementen anwendbar, aber viele interessante Bäume bestehen aus Millionen von Elementen (z.B. Materialstücklisten). (2) Flexibilität: Die Edit-Distanz berechnet das kleinstmögliche Diff und ignoriert jedwede Anwendungssemantik, was zu nicht-intuitiven Ergebnissen führen kann, z.B. könnte eine Abteilung in einen Mitarbeiter umgewandelt werden, um das Diff klein zu halten. Verschiedene Lösungsversuche sind unternommen worden, die jedoch alle mindestens eine der folgenden Einschränkungen mit sich bringen: für mehr Geschwindigkeit muss Qualität geopfert werden (d.h. die Diffs sind unnötig lang) und der Qualitätsverlust wird nicht quantifiziert; die Anwendungssemantik ist fest in die Lösung eingebaut, was deren Einsatzfähigkeit auf sehr spezifische Anwendungen beschränkt; oder nur eines der beiden Probleme (Effizienz oder Flexibilität) wird angegangen. Ziel dieses Projektes ist es, die Effizienz- und Flexibilitätsprobleme der Edit-Distanz zu lösen ohne Qualität einzubüßen. Wir werden erlauben, anwendungsspezifische Bedingungen als Teil des Input zu formulieren (z.B. Abteilungen können nicht zu Mitarbeitern gemacht werden), und das minimale Diff, welches diese Bedingungen erfüllt, wird berechnet. Diese Flexibilität wird unsere Lösung für weite Anwendungsbereiche zugänglich machen. Um Effizienz zu erreichen, planen wir zwei bisher wenig beachtete Tatsachen zu nutzen: Zum einen betreffen Änderungen typischerweise nur kleine Bereiche eines Baumes.Indemwir uns aufdiese Bereiche konzentrieren, hoffen wir auf erhebliche Geschwindigkeitsvorteile. Zum anderen schränken Bedingungen die Anzahl der möglichen Diffs ein, was wir ebenfalls zur Steigerung der Effizienz nutzen wollen. Im Erfolgsfall wird unsere Lösung die erste Edit-Distanz mit benutzerdefinierten Bedingungen sein, welche das kleinstmögliche Diff effizient berechnen kann.
Ziel dieses Projekts war die Entwicklung von effizienten Techniken zur Beantwortung von Ähnlichkeitsanfragen über baumstrukturierte Daten. Die Baumstruktur von Daten ergibt sich durch hierarchische Abhängigkeiten, zum Beispiel gehört ein Autor immer zum dazugehörigen Buch und muss in diesem Kontext betrachtet werden. Die Vielzahl der Anwendungen, die baumstrukturierte Daten erfordern, führte zur Entwicklung von hierarchischen Datenformaten wie XML und JSON. Eine häufig gestellte Anfrage ermittelt Datenbäume basierend auf ihrer paarweisen Ähnlichkeit, welche durch die minimale Differenz zwischen den Bäumen definiert wird: der sogenannten Tree Edit Distance (TED). Anfragen mit TED führen zwar zu intuitiven Ergebnissen, sind aber zeitintensiv in der Berechnung aufgrund fehlender, effizienter Techniken zur Beantwortung dieser Anfragen. In diesem Projekt wurden mehrere neue Ansätze für gängige Ähnlichkeitsanfragen entwickelt, die den aktuellen Stand der Forschung erweitern und bisherige Lösungen in Bezug auf Laufzeit und Speicherverbrauch erheblich verbessern. (1) TopDiff: Oft muss die minimale Differenz zwischen Paaren von Bäumen berechnet werden, was jedoch eine kostspielige Operation darstellt. Der in diesem Projekt entwickelte TopDiff Algorithmus nützt die Ähnlichkeit der Bäume um die Berechnungszeit drastisch zu reduzieren. Die Berechnungszeit für ähnliche Bäume wächst linear in der Baumgröße, während bestehende TED Algorithmen ein kubisches Wachstum aufweisen. (2) SlimCone: Die Top-k Subtree Similarity Anfrage berechnet die k ähnlichsten Teilbäume eines Dokumentbaumes für einen gegebenen Anfragebaum. Bisherige Lösungen basieren auf Indextechniken mit großem Speicherverbrauch, was die Anwendbarkeit auf kleine Bäume einschränkt. Der im Projekt entwickelte SlimCone Index basiert auf einer neuen Idee, welche sowohl den Speicherverbrauch reduziert als auch die Berechnungszeit verringert. (3) TJoin: Der Tree Similarity Join identifiziert alle Baumpaare in einer Menge von Bäumen, welche einen TED Wert kleiner als einen benutzerdefinierten Grenzwert aufweisen. Diese Anfrage wird üblicherweise benutzt, um Duplikate in Daten zu identifizieren. Alle Baumpaare zu vergleichen skaliert nicht für große Datenmengen. Der von uns entwickelte TJoin Algorithmus nutzt einen Index und effiziente aber effektive Filtertechniken um einen Großteil der paarweisen TED Berechnungen zu vermeiden. Alle Paare, welche die Filter passieren, werden von einem neuen Verifikationsalgorithmus überprüft, der den gegebenen Grenzwert ausnutzt um die teuren TED Berechnungen zu vermeiden. Alle in diesem Projekt entwickelten Techniken wurden experimentell mit den bestehenden Lösungen verglichen; die Ergebnisse zeigen, dass die neuen Techniken gegenüber konkurrierenden Lösungen für große Datenmengen oft Laufzeitverbesserungen von mehreren Größenordnungen bringen.
- Universität Salzburg - 100%
- Alfons Kemper, TU München - Deutschland
- Thomas Neumann, TU München - Deutschland
- Helene Touzet, Cité Scientifique - Frankreich
Research Output
- 133 Zitationen
- 20 Publikationen
- 4 Datasets & Models
- 3 Wissenschaftliche Auszeichnungen
- 2 Weitere Förderungen
-
2019
Titel A Link is not Enough – Reproducibility of Data DOI 10.1007/s13222-019-00317-8 Typ Journal Article Autor Pawlik M Journal Datenbank-Spektrum Seiten 107-115 Link Publikation -
2022
Titel JEDI: These aren't the JSON documents you're looking for... DOI 10.1145/3514221.3517850 Typ Conference Proceeding Abstract Autor Hütter T Seiten 1584-1597 Link Publikation -
2022
Titel JEDI: These aren't the JSON documents you're looking for... Typ Conference Proceeding Abstract Autor Augsten N Konferenz International Conference on Management of Data (SIGMOD) Seiten 1584-1597 Link Publikation -
2021
Titel Scalable Similarity Queries over Complex Data Typ PhD Thesis Autor Daniel Kocher Link Publikation -
2021
Titel Similarity Queries over Hierarchical Data Typ PhD Thesis Autor Thomas Hütter -
2021
Titel Scaling Density-Based Clustering to Large Collections of Sets Typ Conference Proceeding Abstract Autor Augsten N Konferenz International Conference on Extending Database Technology (EDBT) Seiten 109-120 Link Publikation -
2019
Titel A Scalable Index for Top-k Subtree Similarity Queries DOI 10.1145/3299869.3319892 Typ Conference Proceeding Abstract Autor Kocher D Seiten 1624-1641 Link Publikation -
2019
Titel Effective Filters and Linear Time Verification for Tree Similarity Joins Thomas DOI 10.1109/icde.2019.00081 Typ Conference Proceeding Abstract Autor Hütter T Seiten 854-865 -
2019
Titel A Scalable Index for Top-k Subtree Similarity Queries Typ Conference Proceeding Abstract Autor Augsten N Konferenz International Conference on Management of Data (SIGMOD) Seiten 1624-1641 Link Publikation -
2019
Titel Effective Filters and Linear Time Verification for Tree Similarity Joins Typ Conference Proceeding Abstract Autor Hütter T Konferenz International Conference on Data Engineering (ICDE) Seiten 854-865 Link Publikation -
2019
Titel Effective Filters and Linear Time Verification for Tree Similarity Joins Typ Conference Proceeding Abstract Autor Hütter T Konferenz International Conference on Data Engineering (ICDE) Seiten 854-865 -
2019
Titel SWOOP: Top-k Similarity Joins over Set Streams Typ Other Autor Augsten N Link Publikation -
2018
Titel Set similarity joins on mapreduce DOI 10.14778/3231751.3231760 Typ Journal Article Autor Fier F Journal Proceedings of the VLDB Endowment Seiten 1110-1122 -
2017
Titel A new perspective on the tree edit distance Typ Conference Proceeding Abstract Autor Pawlik M Konferenz International Conference on Similarity Search and Applications Seiten 156-170 Link Publikation -
2020
Titel DeSignate: detecting signature characters in gene sequence alignments for taxon diagnoses DOI 10.1186/s12859-020-3498-6 Typ Journal Article Autor Hütter T Journal BMC Bioinformatics Seiten 151 Link Publikation -
2020
Titel Minimal Edit-Based Diffs for Large Trees Typ Conference Proceeding Abstract Autor Augsten N Konferenz International Conference on Information and Knowledge Management Seiten 1225-1234 Link Publikation -
2018
Titel A roadmap towards declarative similarity queries Typ Conference Proceeding Abstract Autor Augsten N Konferenz 21st International Conference on Extending Database Technology Link Publikation -
2020
Titel Minimal Edit-Based Diffs for Large Trees DOI 10.1145/3340531.3412026 Typ Conference Proceeding Abstract Autor Pawlik M Seiten 1225-1234 Link Publikation -
2022
Titel JEDI: These aren't the JSON documents you're looking for... (Extended Version*) DOI 10.48550/arxiv.2201.08099 Typ Preprint Autor Hütter T -
2017
Titel A New Perspective on the Tree Edit Distance DOI 10.1007/978-3-319-68474-1_11 Typ Book Chapter Autor Schwarz S Verlag Springer Nature Seiten 156-170
-
2020
Link
Titel DeSignate Typ Computer model/algorithm Öffentlich zugänglich Link Link -
2020
Link
Titel Additional file 1 of DeSignate: detecting signature characters in gene sequence alignments for taxon diagnoses DOI 10.6084/m9.figshare.12160239 Typ Database/Collection of data Öffentlich zugänglich Link Link -
2020
Link
Titel Additional file 1 of DeSignate: detecting signature characters in gene sequence alignments for taxon diagnoses DOI 10.6084/m9.figshare.12262484 Typ Database/Collection of data Öffentlich zugänglich Link Link -
2019
Link
Titel Tree Edit Distance Library Typ Computer model/algorithm Öffentlich zugänglich Link Link
-
2020
Titel Marshall Plan Scholarship Typ Research prize Bekanntheitsgrad Continental/International -
2019
Titel ACM SIGMOD 2019 Reproducibility Package Typ Research prize Bekanntheitsgrad Continental/International -
2019
Titel Young Investigators Award Typ Research prize Bekanntheitsgrad Regional (any country)
-
2020
Titel Austrian Marshall Plan Scholarship Typ Fellowship Förderbeginn 2020 -
2021
Titel DESQ - Declarative and Efficient Similarity Queries Typ Research grant (including intramural programme) Förderbeginn 2021