Moderne Restauration digitaler Signale
Restoration of lost information in digital signals
Bilaterale Ausschreibung: Tschechien
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (30%); Mathematik (55%); Psychologie (15%)
Keywords
-
Inpainting,
Signal Restoration,
Adaptive Representations,
Optimization,
Signal Models,
Auditory Perception
Von historischen Sprach- und Musikaufnahmen bis hin zu Datenübertragungsszenarien, z.B. über eine kabellose Verbindung, sind wir häufig mit dem Verlust beträchtlicher Teile wichtiger Daten konfrontiert. Wie im Falle des Kontextes von derartigem Datenverlust, können sich auch die Gründe dessen stark unterscheiden, von Materialschäden bis hin zu Verbindungsproblemen. In der Konsequenz müssen wir regelmäßig mit, oft in inakzeptablem Maße, beschädigten und gestörten Signalen arbeiten. MERLIN wird, durch die Kombination von Know-How in den Bereichen angewandter Mathematik, Optimierung, Signalmodellierung, Signal- und Bildverarbeitung, sowie der menschlichen Schallwahrnehmung, neue und innovative Methoden zur automatischen Wiederherstellung verlorener Signal-Segmente und der Verschleierung gestörter Inhalte entwickeln. Insbesondere liegt der Fokus von MERLIN auf der Restauration von Audiosignalen diverser Herkunft. Die in MERLIN entwickelten Techniken werden dabei, im Gegensatz zu bereits vorhandenen Methoden, zu jeder möglichen Gelegenheit auf existierende, inhaltsabhängige Information zurückgreifen, um den Restaurationsprozess zu unterstützen. Solche Vorabinformation kann direkt aus dem Signal extrahiert werden, oder als Metadaten, z.B. in Form von Intrumentierung, Sprecherdaten oder einer Partitur, zur Verfügung stehen. Audiorestauration ist ein herausfordernder und einzigartiger Spezialfall der Signalrestauration, nicht nur wegen der Vielfalt von Audiosignalen und deren ständigem Auftreten in Alltagssituationen, sondern auch wegen der Relevanz der menschlichen Hörsystems auf ihre Wahrnehmung. Um die Restauration gleichzeitig zu verbessern und zu erleichtern, wird MERLIN aktuellstes Wissen über die menschliche Wahrnehmung in jedem Entwicklungsschritt in Betracht ziehen. Gemeinsam mit der effizienten Verwendung von Vorabinformation wird dies zu signifikanten Fortschritten in der automatischen Signalwiederherstellung führen. Die im Verlauf des Projekts entwickelten Verfahren werden der wissenschaftlichen Gemeinschaft in einer Software-Toolbox zur Verfügung gestellt, welche, gemeinsam mit einer umfangreichen Datenbank realer und synthetischer Signale, für Forschungszwecke gratis zu erhalten sein wird.
Audiosignale wie Sprach- und Musikaufnahmen begegnen uns im täglichen Leben in unterschiedlichster Form: Im Telefonat mit unseren Lieben, dem Online-Meeting mit Kund:innen oder Kolleg:innen, beim Konsum von Unterhaltungsmedien, sowie, auch ungefragt, in Handel, öffentlichen Verkehrsmitteln und an vielen anderen Orten. Die Aufnahme, Speicherung und Übertragung von Audiodaten ist oft fehleranfällig. Solche Fehler können im schlimmsten Fall zum effektiven Verlust beträchtlicher Abschnitte wichtiger Daten führen. Die Korrektur solcher zusammenhängenden, fehlerhaften Segmente wird, in Anlehnung an ähnliche Techniken in der Bildverarbeitung, oft als audio inpainting, manchmal auch unspezifisch als Fehlerverschleierung, bezeichnet. Beide Begriffe machen deutlich, dass die exakte Wiederherstellung der verlorenen Information nicht immer notwendig, oder möglich, ist. Stattdessen ist das vorrangige Ziel des audio inpainting, ein Signal zur Verfügung zu stellen, das als fehlerfrei wahrgenommen wird. Abseits der Fehlerkorrektur bietet audio inpainting auch vielfältige Möglichkeiten zur kreativ-künstlerischen Anwendung. Durch mathematische Grundlagenforschung in den Bereichen Zeit-Frequenz Analyse und Harmonische Analyse, durch Fortschritte in der Entwicklung neuartiger Signalverarbeitungsverfahren unter Inbetrachtnahme der menschlichen Schallwahrnehmung und durch die Verwendung modernster Methoden des maschinellen Lernens und der Optimierung, war es den MERLIN-Projektpartnern am Institut für Schallforschung der Österreichischen Akademie der Wissenschaften und dem Signalverarbeitungslabor der Technischen Universität Brno möglich, die Basis für wegweisende inpainting Verfahren zu schaffen und diese zu realisieren. Zeit-Frequenz Darstellungen stellen ein wichtiges Werkzeug für die Analyse und Verarbeitung von Audiodaten dar. Sie sind essentieller Bestandteil erfolgreicher audio inpainting Verfahren, auch jener, die in MERLIN entwickelt wurden. Durch ein besseres Verständnis der mathematischen Eigenschaften adaptierter Zeit-Frequenz-Darstellungen, z.B. an die menschliche Schallwahrnehmung, hat MERLIN den Grundstein dafür gelegt, das volle Potential dieser Darstellungen auszuschöpfen. Ihre Verknüpfung mit angepassten, fortschrittlichen Optimierungsmethoden und maschinellem Lernen ermöglichte die Entwicklung von Modellen zur Beschreibung von Audiosignalen, welche die Eigenschaften dieser Daten weitaus besser beschreiben, als zuvor verwendete, oft sehr einfache, Signalmodelle. Die Verwendung dieser Modelle für audio inpainting Verfahren in MERLIN demonstrierte ihr Potential und stellte deutliche qualitative Fortschritte gegenüber dem früheren Stand der Technik dar.
- Richard Kronland-Martinet, CNRS - Frankreich
- Rémi Gribonval, Ecole normale supérieure de Lyon - Frankreich
- Matthieu Kowalski, Universite de Paris-Sud 3 - Frankreich
- Nathanael Perraudin, ETH Zürich - Schweiz
- Pavel Rajmic, Brno University of Technology - Tschechien
- Ilker Bayram, Istanbul Technical University - Türkei
Research Output
- 254 Zitationen
- 38 Publikationen
- 1 Patente
- 4 Datasets & Models
- 1 Software
- 2 Disseminationen
- 4 Wissenschaftliche Auszeichnungen
-
2020
Titel GACELA: A Generative Adversarial Context Encoder for Long Audio Inpainting of Music DOI 10.1109/jstsp.2020.3037506 Typ Journal Article Autor Marafioti A Journal IEEE Journal of Selected Topics in Signal Processing Seiten 120-131 Link Publikation -
2020
Titel Schur-type Banach modules of integral kernels acting on mixed-norm Lebesgue spaces DOI 10.48550/arxiv.2006.01083 Typ Preprint Autor Holighaus N -
2021
Titel Editorial: Reconstruction of Audio From Incomplete or Highly Degraded Observations DOI 10.1109/jstsp.2021.3052087 Typ Journal Article Autor Rajmic P Journal IEEE Journal of Selected Topics in Signal Processing Seiten 2-4 Link Publikation -
2022
Titel Fast Matching Pursuit with Multi-Gabor Dictionaries DOI 10.48550/arxiv.2202.12380 Typ Preprint Autor Pruša Z -
2022
Titel Phase Vocoder Done Right DOI 10.48550/arxiv.2202.07382 Typ Preprint Autor Prusa Z -
2022
Titel Audio Inpainting via $\ell_1$-Minimization and Dictionary Learning DOI 10.48550/arxiv.2202.07479 Typ Preprint Autor Rajbamshi S -
2022
Titel Phase-Based Signal Representations for Scattering DOI 10.48550/arxiv.2202.07484 Typ Preprint Autor Haider D -
2022
Titel Non-iterative Filter Bank Phase (Re)Construction DOI 10.48550/arxiv.2202.07498 Typ Preprint Autor Pruša Z -
2022
Titel SEDENOSS: SEparating and DENOising Seismic Signals With Dual-Path Recurrent Neural Network Architecture DOI 10.1029/2021jb023183 Typ Journal Article Autor Novoselov A Journal Journal of Geophysical Research: Solid Earth Link Publikation -
2022
Titel Coorbit theory of warped time-frequency systems in $\mathbb{R}^d$ DOI 10.48550/arxiv.2208.01342 Typ Preprint Autor Holighaus N -
2023
Titel Grid-Based Decimation for Wavelet Transforms with Stably Invertible Implementation DOI 10.48550/arxiv.2301.01640 Typ Preprint Autor Holighaus N -
2021
Titel SEDENOSS: SEparating and DENOising Seismic Signals with dual-path recurrent neural network architecture DOI 10.1002/essoar.10504944.2 Typ Preprint Autor Novoselov A Link Publikation -
2021
Titel Time-Frequency Phase Retrieval for AudioThe Effect of Transform Parameters DOI 10.1109/tsp.2021.3088581 Typ Journal Article Autor Marafioti A Journal IEEE Transactions on Signal Processing Seiten 3585-3596 Link Publikation -
2019
Titel A Context Encoder For Audio Inpainting DOI 10.1109/taslp.2019.2947232 Typ Journal Article Autor Marafioti A Journal IEEE/ACM Transactions on Audio, Speech, and Language Processing Seiten 2362-2372 -
2019
Titel Characterization of Analytic Wavelet Transforms and a New Phaseless Reconstruction Algorithm DOI 10.1109/tsp.2019.2920611 Typ Journal Article Autor Holighaus N Journal IEEE Transactions on Signal Processing Seiten 3894-3908 Link Publikation -
2020
Titel Sparse and Cosparse Audio Dequantization Using Convex Optimization DOI 10.48550/arxiv.2003.04222 Typ Preprint Autor Záviška P -
2020
Titel A Class of Warped Filter Bank Frames Tailored to Non-linear Frequency Scales DOI 10.1007/s00041-020-09726-w Typ Journal Article Autor Holighaus N Journal Journal of Fourier Analysis and Applications Seiten 22 -
2020
Titel Exemlar-based audio inpainting in musical signals Typ Other Autor Marafioti A Link Publikation -
2020
Titel Accelerating Matching Pursuit for Multiple Gabor Dictionaries Typ Conference Proceeding Abstract Autor Holighaus N Konferenz 23rd International Conference on Digital Audio Effects (DAFx20) Seiten 181-186 Link Publikation -
2021
Titel Audio Inpainting via $\ell_{1}$-Minimization and Dictionary Learning DOI 10.23919/eusipco54536.2021.9616132 Typ Conference Proceeding Abstract Autor Rajbamshi S Seiten 2149-2153 Link Publikation -
2021
Titel Phase-Based Signal Representations for Scattering DOI 10.23919/eusipco54536.2021.9616285 Typ Conference Proceeding Abstract Autor Haider D Seiten 6-10 Link Publikation -
2023
Titel Grid-Based Decimation for Wavelet Transforms With Stably Invertible Implementation DOI 10.1109/taslp.2023.3235197 Typ Journal Article Autor Holighaus N Journal IEEE/ACM Transactions on Audio, Speech and Language Processing Seiten 789-801 -
2024
Titel Coorbit Theory of Warped Time-Frequency Systems in Rd DOI 10.1007/s00041-024-10098-8 Typ Journal Article Autor Holighaus N Journal Journal of Fourier Analysis and Applications Seiten 62 Link Publikation -
2020
Titel Sparse and Cosparse Audio Dequantization Using Convex Optimization DOI 10.1109/tsp49548.2020.9163566 Typ Conference Proceeding Abstract Autor Záviška P Seiten 216-220 Link Publikation -
2017
Titel Non-Iterative Filter Bank Phase (Re)Construction DOI 10.23919/eusipco.2017.8081342 Typ Conference Proceeding Abstract Autor Prûša Z Seiten 922-926 Link Publikation -
2017
Titel Phase Vocoder Done Right DOI 10.23919/eusipco.2017.8081353 Typ Conference Proceeding Abstract Autor Pruša Z Seiten 976-980 -
2018
Titel Non-Iterative Filter Bank Phase (Re)Construction DOI 10.5281/zenodo.1159689 Typ Other Autor Holighaus N Link Publikation -
2018
Titel Phase Vocoder Done Right DOI 10.5281/zenodo.1159430 Typ Other Autor Holighaus N Link Publikation -
2018
Titel Phase Vocoder Done Right DOI 10.5281/zenodo.1159429 Typ Other Autor Holighaus N Link Publikation -
2018
Titel Non-Iterative Filter Bank Phase (Re)Construction DOI 10.5281/zenodo.1159690 Typ Other Autor Holighaus N Link Publikation -
2019
Titel Adversarial Generation of Time-Frequency Features with application in audio synthesis Typ Conference Proceeding Abstract Autor Marafioti A Konferenz 36th International Conference on Machine Learning (ICML) Seiten 4352-4362 Link Publikation -
2019
Titel Audio Inpainting of Music by Means of Neural Networks Typ Conference Proceeding Abstract Autor Holighaus N Konferenz 146th Audio Engineering Society Convention Link Publikation -
2019
Titel Characterization of Analytic Wavelet Transforms and a New Phaseless Reconstruction Algorithm DOI 10.48550/arxiv.1906.00738 Typ Preprint Autor Holighaus N -
2021
Titel Schur-type Banach modules of integral kernels acting on mixed-norm Lebesgue spaces DOI 10.1016/j.jfa.2021.109197 Typ Journal Article Autor Holighaus N Journal Journal of Functional Analysis Seiten 109197 Link Publikation -
2021
Titel Fast Matching Pursuit with Multi-Gabor Dictionaries DOI 10.1145/3447958 Typ Journal Article Autor Pruša Z Journal ACM Transactions on Mathematical Software (TOMS) Seiten 1-20 Link Publikation -
2018
Titel Audlet Filter Banks: A Versatile Analysis/Synthesis Framework Using Auditory Frequency Scales DOI 10.3390/app8010096 Typ Journal Article Autor Necciari T Journal Applied Sciences Seiten 96 Link Publikation -
2018
Titel Inpainting of Long Audio Segments With Similarity Graphs DOI 10.1109/taslp.2018.2809864 Typ Journal Article Autor Perraudin N Journal IEEE/ACM Transactions on Audio, Speech, and Language Processing Seiten 1083-1094 Link Publikation -
2018
Titel Designing Gabor windows using convex optimization DOI 10.1016/j.amc.2018.01.035 Typ Journal Article Autor Perraudin N Journal Applied Mathematics and Computation Seiten 266-287 Link Publikation
-
2019
Patent Id:
WO2019038275
Titel METHOD FOR PHASE CORRECTION IN A PHASE VOCODER AND DEVICE Typ Patent application published patentId WO2019038275 Website Link
-
2021
Link
Titel GACELA - Generative adversarial context encoder for audio inpainting Typ Computer model/algorithm Öffentlich zugänglich Link Link -
2019
Link
Titel TiFGAN: Time Frequency Generative Adversarial Networks Typ Computer model/algorithm Öffentlich zugänglich Link Link -
2019
Link
Titel Audio inpainting with a context encoder Typ Computer model/algorithm Öffentlich zugänglich Link Link -
2019
Link
Titel (Contributions to) The Large Time-Frequency Analysis Toolbox Typ Computer model/algorithm Öffentlich zugänglich Link Link
-
2020
Titel 2020 Best Paper Award (Jubiläumsfonds der Stadt Wien für die ÖAW) of the Austrian Academy of Sciences Typ Research prize Bekanntheitsgrad National (any country) -
2019
Titel Best Paper Award (22nd International Conference on Digital Audio Effects) Typ Research prize Bekanntheitsgrad Continental/International -
2019
Titel Guest editor - IEEE Selected Topics On Signal Processing, Special Issue 'Reconstruction of audio from incomplete or highly degraded observations' Typ Appointed as the editor/advisor to a journal or book series Bekanntheitsgrad Continental/International -
2018
Titel Axiom Poster Award (3rd prize) Typ Poster/abstract prize Bekanntheitsgrad Regional (any country)