Sprachübertragung unter Berücksichtigung der Phase
Phase-Aware Signal Processing for Speech Transmission
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (75%); Informatik (25%)
Keywords
-
Phase-aware signal processing,
Speech enhancement,
Perceived signal quality,
Speech transmission,
Signal processing,
Phase spectrum estimation
Alltägliche Anwendungensindvielfach auf zuverlässigeSprachübertragung und Sprachkommunikation angewiesen. Beispiele dafür sind Sprachsteuerung in der Hausautomation, Freisprechanlagen für Mobiltelefonie oder Spracherkennung für Maschinen. In all diesen Anwendungenist eine hohe Robustheit gegenüber räumlich bedingtem Nachhall und Hintergrundgeräuschen notwendig. Um diese störenden Einflüsse im Sprachsignal zu minimieren, ist eine Aufbereitung des Eingangssignals in Form einer Signalverbesserung notwendig. Während sich aktuelle Technologien der Sprachübertragung hauptsächlich auf die Filterung der Amplituden im Frequenzbereich konzentrieren, versuchen wir die bisherigen Konzepte und die damit verbundenen Möglichkeiten zu erweitern, indem wir zusätzlich die Phasenanteile bei der Signalverarbeitung mit berücksichtigen. Dieser Forschungsbeitrag verfolgt dreierlei Ziele: i) Entwicklung von Methoden zur Abschätzung der Phaseninformation des ursprünglichen ungestörten Quellensignals für eine qualitativ bessere Rekonstruktion der Sprachinformation; ii) Entwicklung von Algorithmen zur Sprachverbesserung in der komplexen Domäne mittels geschätztem Phasenspektrum um die Probleme herkömmlicher Methoden zu überwinden; iii) Verwendung von phasen-basierten Konzepten anhand zweier Anwendungen: 1) Einkanalige Quellentrennung und 2) künstliche Bandbreitenerweiterung; iv) neue Gütemaße zur Abschätzung der Leistungsfähigkeit von Sprachverbesserungsmethoden, die mit der menschlichen Wahrnehmung der Sprach Qualität stark korrelieren. Dadurch können aufwändige Hörtests vermieden werden.
Alltägliche Sprachanwendungen, wie zum Beispiel Sprachsteuerung in der Hausautomation, Freisprechanlagen für Mobiltelefonie oder Spracherkennung für Maschinen, sind auf zuverlässige Sprachverarbeitung und -übertragung angewiesen. In all diese Anwendungen ist eine hohe Stabilität gegenüber räumlich bedingtem Nachhall und Hintergrundgeräuschen notwendig. Um den störenden und unerwünschten Einfluss von Hintergrundgeräuschen zu minimieren, ist eine Aufbereitung des Eingangssignals notwendig. Während sich moderne Technologien für Sprachübertragung hauptsächlich auf die Filterung der Amplituden eines Signals konzentrieren, versuchen wir über die bisherigen Möglichkeiten hinauszugehen, indem wir zusätzlich die Phasenanteile berücksichtigen. Dieser Beitrag gliedert sich in drei Teile: i) Entwicklung von Methoden zur Abschätzung der Phaseninformation des ursprünglichen sauberen Quellensignals für eine qualitativ bessere Rekonstruktion der Sprache. ii) Zweitens, die zuvor beschriebene Methode mit der Vorabinformation des Sprechers zu erweitern. Dieses Wissenüber die Identität des Anwenders kann für eine weitere Optimierung des Sprachverbesserung verwendet werden. iii) Weiters sollen neue Gütemae zur Abschätzung der Leistungsfähigkeit von Sprachverbesserungsmethoden vorgestellt werden, die mit der menschlichen Wahrnehmung der Qualität von Sprache stark korrelieren. Dadurch können aufwändige Hörtests vermieden werden.
- Technische Universität Graz - 100%
- Tim Fingscheidt, Technische Universität Braunschweig - Deutschland
- Paavo Alku, Aalto University Helsinki - Finnland
- Rahim Saeidi, University of Eastern Finland - Finnland
- Gilles Degottex, Centre Georges Pompidou - Frankreich
Research Output
- 351 Zitationen
- 18 Publikationen
- 1 Software
- 2 Wissenschaftliche Auszeichnungen
-
2018
Titel Single-channel speech enhancement using inter-component phase relations DOI 10.1016/j.specom.2018.03.009 Typ Journal Article Autor Barysenka S Journal Speech Communication Seiten 144-160 -
2016
Titel Fixed Points of Belief Propagation -- An Analysis via Polynomial Homotopy Continuation DOI 10.48550/arxiv.1605.06451 Typ Preprint Autor Knoll C -
2016
Titel On the Importance of Harmonic Phase Modification for Improved Speech Signal Reconstruction DOI 10.1109/icassp.2016.7471742 Typ Conference Proceeding Abstract Autor Maly A Seiten 584-588 -
2016
Titel Phase-Processing for Voice Activity Detection: A Statistical Approach DOI 10.1109/eusipco.2016.7760439 Typ Conference Proceeding Abstract Autor Stahl J Seiten 1202-1206 -
2014
Titel Phase Estimation in Single Channel Speech Enhancement Using Phase Decomposition DOI 10.1109/lsp.2014.2365040 Typ Journal Article Autor Kulmer J Journal IEEE Signal Processing Letters Seiten 598-602 -
2019
Titel Exploiting temporal correlation in pitch-adaptive speech enhancement DOI 10.1016/j.specom.2019.05.001 Typ Journal Article Autor Stahl J Journal Speech Communication Seiten 1-13 -
2019
Titel Binaural Codebook-Based Speech Enhancement With Atomic Speech Presence Probability DOI 10.1109/taslp.2019.2937174 Typ Journal Article Autor Wood S Journal IEEE/ACM Transactions on Audio, Speech, and Language Processing Seiten 2150-2161 -
2017
Titel New Results in Modulation-Domain Single-Channel Speech Enhancement DOI 10.1109/taslp.2017.2747082 Typ Journal Article Autor Mowlaee P Journal IEEE/ACM Transactions on Audio, Speech, and Language Processing Seiten 2125-2137 -
2017
Titel Fixed Points of Belief Propagation—An Analysis via Polynomial Homotopy Continuation DOI 10.1109/tpami.2017.2749575 Typ Journal Article Autor Knoll C Journal IEEE Transactions on Pattern Analysis and Machine Intelligence Seiten 2124-2136 Link Publikation -
2017
Titel Impact of phase estimation on single-channel speech separation based on time-frequency masking DOI 10.1121/1.4986647 Typ Journal Article Autor Mayer F Journal The Journal of the Acoustical Society of America Seiten 4668-4679 Link Publikation -
2017
Titel Iterative joint MAP single-channel speech enhancement given non-uniform phase prior DOI 10.1016/j.specom.2016.11.008 Typ Journal Article Autor Mowlaee P Journal Speech Communication Seiten 85-96 -
2020
Titel Single-channel speech enhancement with correlated spectral components: Limits-potential DOI 10.1016/j.specom.2020.05.002 Typ Journal Article Autor Mowlaee P Journal Speech Communication Seiten 58-69 -
2019
Titel Maximum a posteriori Speech Enhancement Based on Double Spectrum DOI 10.21437/interspeech.2019-1197 Typ Conference Proceeding Abstract Autor Mowlaee P Seiten 2738-2742 -
2015
Titel Phase Estimation in Single-Channel Speech Enhancement: Limits-Potential DOI 10.1109/taslp.2015.2430820 Typ Journal Article Autor Mowlaee P Journal IEEE/ACM Transactions on Audio, Speech, and Language Processing Seiten 1283-1294 -
2015
Titel Harmonic Phase Estimation in Single-Channel Speech Enhancement Using Phase Decomposition and SNR Information DOI 10.1109/taslp.2015.2439038 Typ Journal Article Autor Mowlaee P Journal IEEE/ACM Transactions on Audio, Speech, and Language Processing Seiten 1521-1532 -
2018
Titel A Simple and Effective Framework for a Priori SNR Estimation DOI 10.1109/icassp.2018.8461787 Typ Conference Proceeding Abstract Autor Stahl J Seiten 5644-5648 -
2018
Titel A Pitch-Synchronous Simultaneous Detection-Estimation Framework for Speech Enhancement DOI 10.1109/taslp.2017.2779405 Typ Journal Article Autor Stahl J Journal IEEE/ACM Transactions on Audio, Speech, and Language Processing Seiten 436-450 -
2016
Titel Advances in phase-aware signal processing in speech communication DOI 10.1016/j.specom.2016.04.002 Typ Journal Article Autor Mowlaee P Journal Speech Communication Seiten 1-29
-
2016
Titel Editor for special issue Typ Appointed as the editor/advisor to a journal or book series Bekanntheitsgrad Continental/International -
2016
Titel IEEE Senior membership Typ Medal Bekanntheitsgrad Continental/International