Projektdetail

Grant-DOI 10.55776/P28070
Bewilligungssumme Einzelprojekte
Status beendet
Projektbeginn 01.10.2015
Projektende 31.07.2019
Bewilligungssumme 338.236 €
Projekt-Website

Wissenschaftsdisziplinen

Elektrotechnik, Elektronik, Informationstechnik (75%); Informatik (25%)

Keywords

Phase-aware signal processing,
Speech enhancement,
Perceived signal quality,
Speech transmission,
Signal processing,
Phase spectrum estimation

Abstract

Zusammenfassung

Alltägliche Anwendungensindvielfach auf zuverlässigeSprachübertragung und Sprachkommunikation angewiesen. Beispiele dafür sind Sprachsteuerung in der Hausautomation, Freisprechanlagen für Mobiltelefonie oder Spracherkennung für Maschinen. In all diesen Anwendungenist eine hohe Robustheit gegenüber räumlich bedingtem Nachhall und Hintergrundgeräuschen notwendig. Um diese störenden Einflüsse im Sprachsignal zu minimieren, ist eine Aufbereitung des Eingangssignals in Form einer Signalverbesserung notwendig. Während sich aktuelle Technologien der Sprachübertragung hauptsächlich auf die Filterung der Amplituden im Frequenzbereich konzentrieren, versuchen wir die bisherigen Konzepte und die damit verbundenen Möglichkeiten zu erweitern, indem wir zusätzlich die Phasenanteile bei der Signalverarbeitung mit berücksichtigen. Dieser Forschungsbeitrag verfolgt dreierlei Ziele: i) Entwicklung von Methoden zur Abschätzung der Phaseninformation des ursprünglichen ungestörten Quellensignals für eine qualitativ bessere Rekonstruktion der Sprachinformation; ii) Entwicklung von Algorithmen zur Sprachverbesserung in der komplexen Domäne mittels geschätztem Phasenspektrum um die Probleme herkömmlicher Methoden zu überwinden; iii) Verwendung von phasen-basierten Konzepten anhand zweier Anwendungen: 1) Einkanalige Quellentrennung und 2) künstliche Bandbreitenerweiterung; iv) neue Gütemaße zur Abschätzung der Leistungsfähigkeit von Sprachverbesserungsmethoden, die mit der menschlichen Wahrnehmung der Sprach Qualität stark korrelieren. Dadurch können aufwändige Hörtests vermieden werden.

Alltägliche Sprachanwendungen, wie zum Beispiel Sprachsteuerung in der Hausautomation, Freisprechanlagen für Mobiltelefonie oder Spracherkennung für Maschinen, sind auf zuverlässige Sprachverarbeitung und -übertragung angewiesen. In all diese Anwendungen ist eine hohe Stabilität gegenüber räumlich bedingtem Nachhall und Hintergrundgeräuschen notwendig. Um den störenden und unerwünschten Einfluss von Hintergrundgeräuschen zu minimieren, ist eine Aufbereitung des Eingangssignals notwendig. Während sich moderne Technologien für Sprachübertragung hauptsächlich auf die Filterung der Amplituden eines Signals konzentrieren, versuchen wir über die bisherigen Möglichkeiten hinauszugehen, indem wir zusätzlich die Phasenanteile berücksichtigen. Dieser Beitrag gliedert sich in drei Teile: i) Entwicklung von Methoden zur Abschätzung der Phaseninformation des ursprünglichen sauberen Quellensignals für eine qualitativ bessere Rekonstruktion der Sprache. ii) Zweitens, die zuvor beschriebene Methode mit der Vorabinformation des Sprechers zu erweitern. Dieses Wissenüber die Identität des Anwenders kann für eine weitere Optimierung des Sprachverbesserung verwendet werden. iii) Weiters sollen neue Gütemae zur Abschätzung der Leistungsfähigkeit von Sprachverbesserungsmethoden vorgestellt werden, die mit der menschlichen Wahrnehmung der Qualität von Sprache stark korrelieren. Dadurch können aufwändige Hörtests vermieden werden.

Forschungsstätte(n)

Technische Universität Graz - 100%

Internationale Projektbeteiligte

Tim Fingscheidt, Technische Universität Braunschweig - Deutschland
Paavo Alku, Aalto University Helsinki - Finnland
Rahim Saeidi, University of Eastern Finland - Finnland
Gilles Degottex, Centre Georges Pompidou - Frankreich

Research Output

351 Zitationen
18 Publikationen
1 Software
2 Wissenschaftliche Auszeichnungen

Publikationen

Titel	Exploiting temporal correlation in pitch-adaptive speech enhancement
DOI	10.1016/j.specom.2019.05.001
Typ	Journal Article
Autor	Stahl J
Journal	Speech Communication
Seiten	1-13

Titel	Single-channel speech enhancement using inter-component phase relations
DOI	10.1016/j.specom.2018.03.009
Typ	Journal Article
Autor	Barysenka S
Journal	Speech Communication
Seiten	144-160

Titel	A Pitch-Synchronous Simultaneous Detection-Estimation Framework for Speech Enhancement
DOI	10.1109/taslp.2017.2779405
Typ	Journal Article
Autor	Stahl J
Journal	IEEE/ACM Transactions on Audio, Speech, and Language Processing
Seiten	436-450

Titel	Iterative joint MAP single-channel speech enhancement given non-uniform phase prior
DOI	10.1016/j.specom.2016.11.008
Typ	Journal Article
Autor	Mowlaee P
Journal	Speech Communication
Seiten	85-96

Titel	Fixed Points of Belief Propagation—An Analysis via Polynomial Homotopy Continuation
DOI	10.1109/tpami.2017.2749575
Typ	Journal Article
Autor	Knoll C
Journal	IEEE Transactions on Pattern Analysis and Machine Intelligence
Seiten	2124-2136
Link	Publikation

Titel	Maximum a posteriori Speech Enhancement Based on Double Spectrum
DOI	10.21437/interspeech.2019-1197
Typ	Conference Proceeding Abstract
Autor	Mowlaee P
Seiten	2738-2742

Titel	Binaural Codebook-Based Speech Enhancement With Atomic Speech Presence Probability
DOI	10.1109/taslp.2019.2937174
Typ	Journal Article
Autor	Wood S
Journal	IEEE/ACM Transactions on Audio, Speech, and Language Processing
Seiten	2150-2161

Titel	Single-channel speech enhancement with correlated spectral components: Limits-potential
DOI	10.1016/j.specom.2020.05.002
Typ	Journal Article
Autor	Mowlaee P
Journal	Speech Communication
Seiten	58-69

Titel	A Simple and Effective Framework for a Priori SNR Estimation
DOI	10.1109/icassp.2018.8461787
Typ	Conference Proceeding Abstract
Autor	Stahl J
Seiten	5644-5648

Titel	Fixed Points of Belief Propagation -- An Analysis via Polynomial Homotopy Continuation
DOI	10.48550/arxiv.1605.06451
Typ	Preprint
Autor	Knoll C

Titel	Phase Estimation in Single Channel Speech Enhancement Using Phase Decomposition
DOI	10.1109/lsp.2014.2365040
Typ	Journal Article
Autor	Kulmer J
Journal	IEEE Signal Processing Letters
Seiten	598-602

Titel	Advances in phase-aware signal processing in speech communication
DOI	10.1016/j.specom.2016.04.002
Typ	Journal Article
Autor	Mowlaee P
Journal	Speech Communication
Seiten	1-29

Titel	Phase-Processing for Voice Activity Detection: A Statistical Approach
DOI	10.1109/eusipco.2016.7760439
Typ	Conference Proceeding Abstract
Autor	Stahl J
Seiten	1202-1206

Titel	On the Importance of Harmonic Phase Modification for Improved Speech Signal Reconstruction
DOI	10.1109/icassp.2016.7471742
Typ	Conference Proceeding Abstract
Autor	Maly A
Seiten	584-588

Titel	Impact of phase estimation on single-channel speech separation based on time-frequency masking
DOI	10.1121/1.4986647
Typ	Journal Article
Autor	Mayer F
Journal	The Journal of the Acoustical Society of America
Seiten	4668-4679
Link	Publikation

Titel	New Results in Modulation-Domain Single-Channel Speech Enhancement
DOI	10.1109/taslp.2017.2747082
Typ	Journal Article
Autor	Mowlaee P
Journal	IEEE/ACM Transactions on Audio, Speech, and Language Processing
Seiten	2125-2137

Titel	Phase Estimation in Single-Channel Speech Enhancement: Limits-Potential
DOI	10.1109/taslp.2015.2430820
Typ	Journal Article
Autor	Mowlaee P
Journal	IEEE/ACM Transactions on Audio, Speech, and Language Processing
Seiten	1283-1294

Titel	Harmonic Phase Estimation in Single-Channel Speech Enhancement Using Phase Decomposition and SNR Information
DOI	10.1109/taslp.2015.2439038
Typ	Journal Article
Autor	Mowlaee P
Journal	IEEE/ACM Transactions on Audio, Speech, and Language Processing
Seiten	1521-1532

Software

Titel	PhaseLab Toolbox
Link	Link

Wissenschaftliche Auszeichnungen

Titel	IEEE Senior membership
Typ	Medal
Bekanntheitsgrad	Continental/International

Titel	Editor for special issue
Typ	Appointed as the editor/advisor to a journal or book series
Bekanntheitsgrad	Continental/International

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Sprachübertragung unter Berücksichtigung der Phase

Phase-Aware Signal Processing for Speech Transmission

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Sprachübertragung unter Berücksichtigung der Phase

Phase-Aware Signal Processing for Speech Transmission

Wissenschaftsdisziplinen

Keywords

Research Output