Informationstheoretische Aggregation von Markov-Ketten
Information-Theoretic Markov Aggregation
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (40%); Informatik (40%); Mathematik (20%)
Keywords
-
(hidden) Markov models,
State Space Aggregation,
Information Theory,
Lumpability,
Information Bottleneck,
Coarse Graining
Markov-Modelle sind wichtige mathematische Modelle für Zufallsprozesse und werden in vielen Wissenschaftsdisziplinen eingesetzt. Sie dienen als Werkzeuge in der Nachrichtentechnik, der Genetik und der Systembiologie, in der Sprachverarbeitung und im maschinellen Lernen. In einigen dieser Anwendungsgebiete sind die Modelle allerdings zu groß, um sinnvoll eingesetzt werden zu können. Einerseits kann es unmöglich werden, ein gegebenes Markov-Modell zu simulieren, andererseits reichen oft die vorhandenen Daten nicht aus um die Parameter des Modells zu bestimmen. Es ist daher in diesen Wissenschaftsdisziplinen erforderlich, die vorhandenen Modelle zu vereinfachen. Das Ziel des Forschungsaufenthalts ist, Markov-Modelle mithilfe informationstheoretischer Methoden zu aggregieren. Aggregation bedeutet in diesem Zusammenhang dass einzelne Zustände des ursprünglichen Modells zu einem einzigen Zustand zusammengefasst werden in der Sprachverarbeitung würde man z.B. die Wörter forschen, beantragen und hoffen zu Verben zusammenfassen. Die Vereinfachung von Markov- Modellen wurde in den letzten Jahren zwar immer populärer, doch werden informationstheoretische Methoden immer noch zögerlich eingesetzt. Aber was sind informationstheoretische Methoden? Die Informationstheorie beschäftigt sich mit der Übertragung von Information und deren mathematischer Grundlage. Markov-Modelle mithilfe informationstheoretischer Methoden zu aggregieren bedeutet also, salopp ausgedrückt, das Modell zu vereinfachen und dabei so wenig Information wie möglich zu zerstören. Während des Forschungsaufenthalts werden wir nicht nur theoretische Resultate erarbeiten, sondern auch Algorithmen entwerfen, die ein gegebenes Markov-Modell vereinfachen. Die Anwendungsmöglichkeiten solcher Algorithmen sind enorm: Konkret hoffen wir, den Viterbi-Algorithmus, einen wichtigen Algorithmus in der Nachrichtentechnik, zu vereinfachen. Außerdem wollen wir, vor allem während der Rückkehrphase in Österreich, unsere Ergebnisse und Methoden in der Sprachverarbeitung einsetzen. Wer weiß, vielleicht finden einige der Resultate sogar ihren Weg in den Programmcode von Siri, Google Now oder Microsoft Cortana!
Wie lässt sich ein komplexes mathematisches Modell vereinfachen ohne dabei viel Information zu verlieren? Genau mit dieser Frage beschäftigte sich dieses Erwin-Schrödinger-Auslandsstipendium. Der Fokus lag dabei auf Markov-Modellen. Diese populären Modelle für Zufallsfolgen finden Anwendung in der automatisierten Textverarbeitung, der Biologie und im maschinellen Lernen. Konkretes Ziel des Projekts war die Entwicklung von informationstheoretischen Methoden zur Aggregation solcher Markov-Modelle. Aggregation bedeutet in diesem Zusammenhang die Gruppierung von Objekten zu Clustern - in der Textverarbeitung würden zum Beispiel die Objekte forschen, anwenden und hoffen zum Cluster Verben zusammengefasst werden. Während Aggregation ein bekanntes Verfahren ist, wurde ihre Kombination mit informationstheoretischen Methoden erst in den letzten Jahren populär. Doch was sind informationstheoretischen Methoden? Die Informationstheorie beschäftigt sich mit den Grenzen der Übertragung von Information. Ein Markov-Modell mit informationstheoretischen Methoden zu aggregieren bedeutet - grob gesagt - das mathematische Modell zu vereinfachen und dabei soviel Information wie möglich zu bewahren. Der Name ist Programm: Der Großteil der Projektarbeit war theoretischer Natur. Dennoch fanden wir viele interessante praktische Anwendungen der entwickelten Theorie und der implementierten Algorithmen. Zum Beispiel lassen sich die Methoden zur Markov-Aggregation einsetzen, um Textdokumente zu gruppieren. Diese Gruppierungen geben nicht nur Auskunft über die in den Dokumenten behandelten Themen, sondern auch über Wortgruppen welche diese Themen definieren. Ein weiteres Anwendungsbeispiel ist das Gruppieren von Kinofilmen basierend auf Bewertungen. Außerdem kann man mittels Markov-Aggregation eng zusammengehörende Personengruppen in Theaterstücken entdecken - die Brücke zu den digitalen Geisteswissenschaften ist geschlagen. Und wer weiß, vielleicht sind es gerade diese Methoden die Auskunft geben ob Romeo und Julias Ehe bestand gehabt hätte, wäre ihre Geschichte ein wenig anders ausgegangen.
- Technische Universität München - 100%
- Technische Universität Graz - 100%
Research Output
- 97 Zitationen
- 13 Publikationen
-
2022
Titel Understanding Neural Networks and Individual Neuron Importance via Information-Ordered Cumulative Ablation DOI 10.1109/tnnls.2021.3088685 Typ Journal Article Autor Amjad R Journal IEEE Transactions on Neural Networks and Learning Systems Seiten 7842-7852 Link Publikation -
2016
Titel Information-Theoretic Analysis of Memoryless Deterministic Systems DOI 10.3390/e18110410 Typ Journal Article Autor Geiger B Journal Entropy Seiten 410 Link Publikation -
2016
Titel Graph-Based Lossless Markov Lumpings DOI 10.1109/isit.2016.7541856 Typ Conference Proceeding Abstract Autor Geiger B Seiten 3033-3037 Link Publikation -
2016
Titel Greedy Algorithms for Optimal Distribution Approximation DOI 10.3390/e18070262 Typ Journal Article Autor Geiger B Journal Entropy Seiten 262 Link Publikation -
2018
Titel The Fractality of Polar and Reed–Muller Codes † DOI 10.3390/e20010070 Typ Journal Article Autor Geiger B Journal Entropy Seiten 70 Link Publikation -
2018
Titel Co-Clustering via Information-Theoretic Markov Aggregation DOI 10.1109/tkde.2018.2846252 Typ Journal Article Autor Blchl C Journal IEEE Transactions on Knowledge and Data Engineering Seiten 720-732 Link Publikation -
2018
Titel A Rate-Distortion Approach to Caching DOI 10.1109/tit.2017.2768058 Typ Journal Article Autor Timo R Journal IEEE Transactions on Information Theory Seiten 1957-1976 Link Publikation -
2018
Titel Information Loss in Deterministic Signal Processing Systems DOI 10.1007/978-3-319-59533-7 Typ Book Autor Geiger B Verlag Springer Nature -
2017
Titel A sufficient condition for a unique invariant distribution of a higher-order Markov chain DOI 10.1016/j.spl.2017.07.006 Typ Journal Article Autor Geiger B Journal Statistics & Probability Letters Seiten 49-56 Link Publikation -
2017
Titel Semi-supervised cross-entropy clustering with information bottleneck constraint DOI 10.1016/j.ins.2017.07.016 Typ Journal Article Autor Smieja M Journal Information Sciences Seiten 254-271 Link Publikation -
2017
Titel On the Information Dimension Rate of Stochastic Processes DOI 10.1109/isit.2017.8006656 Typ Conference Proceeding Abstract Autor Geiger B Seiten 888-892 Link Publikation -
2017
Titel Secret-key Binding to Physical Identifiers with Reliability Guarantees DOI 10.1109/icc.2017.7996732 Typ Conference Proceeding Abstract Autor Günlü O Seiten 1-6 -
2017
Titel Divergence Scaling of Fixed-Length, Binary-Output, One-to-One Distribution Matching DOI 10.1109/isit.2017.8007095 Typ Conference Proceeding Abstract Autor Schulte P Seiten 3075-3079 Link Publikation