Projektdetail

Wissenschaftsdisziplinen

Informatik (100%)

Keywords

Tree Edit Distance, Tree Similarity, Hierarchical Data, Similarity Search, Approximate Matching

Abstract

Endbericht

Hierarchisch strukturierte Daten werden Bäume genannt. Ein Beispiel ist die hierarchische Organisation eines Unternehmens mit Abteilungen, Führungskräften und Mitarbeitern. Weitere Beispiele sind Anlagegüter von Unternehmen, Materialstücklisten, Syntaxbäume von natürlichen Sprachen oder Programmiersprachen, Dateiordner in Dateisystemen, sowie molekulare Strukturen in der Bioinformatik. Wenn sich Baumdaten ändern, werden neue Baumversion erzeugt. Die Differenzen zwischen zwei Versionen (auch als Diffs bezeichnet) festzustellen ist eine wichtige Aufgabe. Gute Diffs sind so prägnant wie möglich. Ein weit verbreiteter Ansatz ist die Edit-Distanz, welche das kleinstmögliche Diff berechnet. Die Berechnung des minimalen Diffs ist schwierig. Die derzeitigen Lösungen kranken an mangelnder Effizienz und Flexibilität, was deren praktischen Einsatz stark einschränkt. (1) Effizienz: Die Berechnung des minimalen Diffs ist zu langsam. Bei doppelter Baumgröße braucht die Berechnung mindestens vier mal so lang. Gängige Techniken sind für Bäume mit etwa 10.000 Elementen anwendbar, aber viele interessante Bäume bestehen aus Millionen von Elementen (z.B. Materialstücklisten). (2) Flexibilität: Die Edit-Distanz berechnet das kleinstmögliche Diff und ignoriert jedwede Anwendungssemantik, was zu nicht-intuitiven Ergebnissen führen kann, z.B. könnte eine Abteilung in einen Mitarbeiter umgewandelt werden, um das Diff klein zu halten. Verschiedene Lösungsversuche sind unternommen worden, die jedoch alle mindestens eine der folgenden Einschränkungen mit sich bringen: für mehr Geschwindigkeit muss Qualität geopfert werden (d.h. die Diffs sind unnötig lang) und der Qualitätsverlust wird nicht quantifiziert; die Anwendungssemantik ist fest in die Lösung eingebaut, was deren Einsatzfähigkeit auf sehr spezifische Anwendungen beschränkt; oder nur eines der beiden Probleme (Effizienz oder Flexibilität) wird angegangen. Ziel dieses Projektes ist es, die Effizienz- und Flexibilitätsprobleme der Edit-Distanz zu lösen ohne Qualität einzubüßen. Wir werden erlauben, anwendungsspezifische Bedingungen als Teil des Input zu formulieren (z.B. Abteilungen können nicht zu Mitarbeitern gemacht werden), und das minimale Diff, welches diese Bedingungen erfüllt, wird berechnet. Diese Flexibilität wird unsere Lösung für weite Anwendungsbereiche zugänglich machen. Um Effizienz zu erreichen, planen wir zwei bisher wenig beachtete Tatsachen zu nutzen: Zum einen betreffen Änderungen typischerweise nur kleine Bereiche eines Baumes.Indemwir uns aufdiese Bereiche konzentrieren, hoffen wir auf erhebliche Geschwindigkeitsvorteile. Zum anderen schränken Bedingungen die Anzahl der möglichen Diffs ein, was wir ebenfalls zur Steigerung der Effizienz nutzen wollen. Im Erfolgsfall wird unsere Lösung die erste Edit-Distanz mit benutzerdefinierten Bedingungen sein, welche das kleinstmögliche Diff effizient berechnen kann.

Ziel dieses Projekts war die Entwicklung von effizienten Techniken zur Beantwortung von Ähnlichkeitsanfragen über baumstrukturierte Daten. Die Baumstruktur von Daten ergibt sich durch hierarchische Abhängigkeiten, zum Beispiel gehört ein Autor immer zum dazugehörigen Buch und muss in diesem Kontext betrachtet werden. Die Vielzahl der Anwendungen, die baumstrukturierte Daten erfordern, führte zur Entwicklung von hierarchischen Datenformaten wie XML und JSON. Eine häufig gestellte Anfrage ermittelt Datenbäume basierend auf ihrer paarweisen Ähnlichkeit, welche durch die minimale Differenz zwischen den Bäumen definiert wird: der sogenannten Tree Edit Distance (TED). Anfragen mit TED führen zwar zu intuitiven Ergebnissen, sind aber zeitintensiv in der Berechnung aufgrund fehlender, effizienter Techniken zur Beantwortung dieser Anfragen. In diesem Projekt wurden mehrere neue Ansätze für gängige Ähnlichkeitsanfragen entwickelt, die den aktuellen Stand der Forschung erweitern und bisherige Lösungen in Bezug auf Laufzeit und Speicherverbrauch erheblich verbessern. (1) TopDiff: Oft muss die minimale Differenz zwischen Paaren von Bäumen berechnet werden, was jedoch eine kostspielige Operation darstellt. Der in diesem Projekt entwickelte TopDiff Algorithmus nützt die Ähnlichkeit der Bäume um die Berechnungszeit drastisch zu reduzieren. Die Berechnungszeit für ähnliche Bäume wächst linear in der Baumgröße, während bestehende TED Algorithmen ein kubisches Wachstum aufweisen. (2) SlimCone: Die Top-k Subtree Similarity Anfrage berechnet die k ähnlichsten Teilbäume eines Dokumentbaumes für einen gegebenen Anfragebaum. Bisherige Lösungen basieren auf Indextechniken mit großem Speicherverbrauch, was die Anwendbarkeit auf kleine Bäume einschränkt. Der im Projekt entwickelte SlimCone Index basiert auf einer neuen Idee, welche sowohl den Speicherverbrauch reduziert als auch die Berechnungszeit verringert. (3) TJoin: Der Tree Similarity Join identifiziert alle Baumpaare in einer Menge von Bäumen, welche einen TED Wert kleiner als einen benutzerdefinierten Grenzwert aufweisen. Diese Anfrage wird üblicherweise benutzt, um Duplikate in Daten zu identifizieren. Alle Baumpaare zu vergleichen skaliert nicht für große Datenmengen. Der von uns entwickelte TJoin Algorithmus nutzt einen Index und effiziente aber effektive Filtertechniken um einen Großteil der paarweisen TED Berechnungen zu vermeiden. Alle Paare, welche die Filter passieren, werden von einem neuen Verifikationsalgorithmus überprüft, der den gegebenen Grenzwert ausnutzt um die teuren TED Berechnungen zu vermeiden. Alle in diesem Projekt entwickelten Techniken wurden experimentell mit den bestehenden Lösungen verglichen; die Ergebnisse zeigen, dass die neuen Techniken gegenüber konkurrierenden Lösungen für große Datenmengen oft Laufzeitverbesserungen von mehreren Größenordnungen bringen.

Forschungsstätte(n)

Universität Salzburg - 100%

Internationale Projektbeteiligte

Alfons Kemper, TU München - Deutschland
Thomas Neumann, TU München - Deutschland
Helene Touzet, Cité Scientifique - Frankreich

Research Output

133 Zitationen
20 Publikationen
4 Datasets & Models
3 Wissenschaftliche Auszeichnungen
2 Weitere Förderungen

Publikationen

Titel	A Link is not Enough – Reproducibility of Data
DOI	10.1007/s13222-019-00317-8
Typ	Journal Article
Autor	Pawlik M
Journal	Datenbank-Spektrum
Seiten	107-115
Link	Publikation

Titel	JEDI: These aren't the JSON documents you're looking for...
DOI	10.1145/3514221.3517850
Typ	Conference Proceeding Abstract
Autor	Hütter T
Seiten	1584-1597
Link	Publikation

Titel	JEDI: These aren't the JSON documents you're looking for...
Typ	Conference Proceeding Abstract
Autor	Augsten N
Konferenz	International Conference on Management of Data (SIGMOD)
Seiten	1584-1597
Link	Publikation

Titel	Scalable Similarity Queries over Complex Data
Typ	PhD Thesis
Autor	Daniel Kocher
Link	Publikation

Titel	Similarity Queries over Hierarchical Data
Typ	PhD Thesis
Autor	Thomas Hütter

Titel	Scaling Density-Based Clustering to Large Collections of Sets
Typ	Conference Proceeding Abstract
Autor	Augsten N
Konferenz	International Conference on Extending Database Technology (EDBT)
Seiten	109-120
Link	Publikation

Titel	A Scalable Index for Top-k Subtree Similarity Queries
DOI	10.1145/3299869.3319892
Typ	Conference Proceeding Abstract
Autor	Kocher D
Seiten	1624-1641
Link	Publikation

Titel	Effective Filters and Linear Time Verification for Tree Similarity Joins Thomas
DOI	10.1109/icde.2019.00081
Typ	Conference Proceeding Abstract
Autor	Hütter T
Seiten	854-865

Titel	A Scalable Index for Top-k Subtree Similarity Queries
Typ	Conference Proceeding Abstract
Autor	Augsten N
Konferenz	International Conference on Management of Data (SIGMOD)
Seiten	1624-1641
Link	Publikation

Titel	Effective Filters and Linear Time Verification for Tree Similarity Joins
Typ	Conference Proceeding Abstract
Autor	Hütter T
Konferenz	International Conference on Data Engineering (ICDE)
Seiten	854-865
Link	Publikation

Titel	Effective Filters and Linear Time Verification for Tree Similarity Joins
Typ	Conference Proceeding Abstract
Autor	Hütter T
Konferenz	International Conference on Data Engineering (ICDE)
Seiten	854-865

Titel	SWOOP: Top-k Similarity Joins over Set Streams
Typ	Other
Autor	Augsten N
Link	Publikation

Titel	Set similarity joins on mapreduce
DOI	10.14778/3231751.3231760
Typ	Journal Article
Autor	Fier F
Journal	Proceedings of the VLDB Endowment
Seiten	1110-1122

Titel	A new perspective on the tree edit distance
Typ	Conference Proceeding Abstract
Autor	Pawlik M
Konferenz	International Conference on Similarity Search and Applications
Seiten	156-170
Link	Publikation

Titel	DeSignate: detecting signature characters in gene sequence alignments for taxon diagnoses
DOI	10.1186/s12859-020-3498-6
Typ	Journal Article
Autor	Hütter T
Journal	BMC Bioinformatics
Seiten	151
Link	Publikation

Titel	Minimal Edit-Based Diffs for Large Trees
Typ	Conference Proceeding Abstract
Autor	Augsten N
Konferenz	International Conference on Information and Knowledge Management
Seiten	1225-1234
Link	Publikation

Titel	A roadmap towards declarative similarity queries
Typ	Conference Proceeding Abstract
Autor	Augsten N
Konferenz	21st International Conference on Extending Database Technology
Link	Publikation

Titel	Minimal Edit-Based Diffs for Large Trees
DOI	10.1145/3340531.3412026
Typ	Conference Proceeding Abstract
Autor	Pawlik M
Seiten	1225-1234
Link	Publikation

Titel	JEDI: These aren't the JSON documents you're looking for... (Extended Version*)
DOI	10.48550/arxiv.2201.08099
Typ	Preprint
Autor	Hütter T

Titel	A New Perspective on the Tree Edit Distance
DOI	10.1007/978-3-319-68474-1_11
Typ	Book Chapter
Autor	Schwarz S
Verlag	Springer Nature
Seiten	156-170

Datasets & Models

Öffentlich zugänglich
Titel	DeSignate
Typ	Computer model/algorithm
Link	Link

Öffentlich zugänglich
Titel	Additional file 1 of DeSignate: detecting signature characters in gene sequence alignments for taxon diagnoses
DOI	10.6084/m9.figshare.12160239
Typ	Database/Collection of data
Link	Link

Öffentlich zugänglich
Titel	Additional file 1 of DeSignate: detecting signature characters in gene sequence alignments for taxon diagnoses
DOI	10.6084/m9.figshare.12262484
Typ	Database/Collection of data
Link	Link

Öffentlich zugänglich
Titel	Tree Edit Distance Library
Typ	Computer model/algorithm
Link	Link

Wissenschaftliche Auszeichnungen

Titel	Marshall Plan Scholarship
Typ	Research prize
Bekanntheitsgrad	Continental/International

Titel	ACM SIGMOD 2019 Reproducibility Package
Typ	Research prize
Bekanntheitsgrad	Continental/International

Titel	Young Investigators Award
Typ	Research prize
Bekanntheitsgrad	Regional (any country)

Weitere Förderungen

Titel	Austrian Marshall Plan Scholarship
Typ	Fellowship
Förderbeginn	2020

Titel	DESQ - Declarative and Efficient Similarity Queries
Typ	Research grant (including intramural programme)
Förderbeginn	2021

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

FFTED - Schnelle und flexible Edit-Distanz für Baumdaten

FFTED - Fast and Flexible Tree Edit Distance

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

FFTED - Schnelle und flexible Edit-Distanz für Baumdaten

FFTED - Fast and Flexible Tree Edit Distance

Wissenschaftsdisziplinen

Keywords

Research Output