Projektdetail

Wissenschaftsdisziplinen

Informatik (85%); Sprach- und Literaturwissenschaften (15%)

Keywords

Speech Synthesis, Visual Synthesis, Dialect

Abstract

Endbericht

In diesem Projekt werden wir die multimodale Adaptation für audio-visuelle Sprachsynthese untersuchen. Da menschliche Sprache multimodal ist, wollen wir auch das akustische und visuelle Signal gemeinsam modellieren. Im sprachlichen Verhalten können wir zwischen Intra-SprecherInnen-Variabilität (z.B. Variabilität abhängig von Sprechsituationen, Sprechaufgaben und emotionalen Zuständen eines/einer SprecherIn) und Inter-SprecherInnen- Variabilität (z.B. soziolektale und/oder dialektale Variabilität) unterscheiden. Die zweite Art von Variabilität kann modelliert werden, indem durchschnittliche Sprachmodelle von SprecherInnen verschiedener Dialekte auf eine/n SprecherIn eines bestimmten Dialekts adaptiert werden. Dialekt wird als eine Quelle der Variation verwendet, um unsere Forschungen an den Wiener Soziolekten auf andere österreichische Dialekte auszuweiten, und um grundlegende Forschungsfragen im Bereich der audio-visuellen Synthese von Dialekten zu untersuchen. In der audio-visuellen Sprachsynthese wird ein Sprach- und Videosignal einer sprechenden Person generiert. In den meisten früheren Ansätzen wurden das akustische und das visuelle Signal separat modelliert, obwohl beide Signale das Resultat ein und desselben Artikulationsprozesses sind und deshalb gemeinsam modelliert werden sollten. Die Verwendung von visueller Information kann darüber hinaus auch zu einer besseren akustischen Synthese führen. Daher wollen wir Methoden entwickeln, die es uns erlauben das akustische und das visuelle Signal gemeinsam zu modellieren. Mit diesen Methoden wollen wir akustische und visuelle Signale für verschiedene österreichische Dialekte generieren. Durch die Verwendung von hidden Markov Modellen (HMM) für die akustische und visuelle Synthese ist es möglich, beide Merkmalsequenzen in einem gemeinsamen Modell zu kombinieren. Ein wichtiger Aspekt unserer Arbeit ist daher die multimodale Adaptation von audio-visuellen Synthesemodellen. Die gemeinsame Adaptation akustischer und visueller Modelle an multimodale audio-visuelle Modelle wurde noch nicht untersucht und führt zu einer Reihe wichtiger Forschungsfragen, die wir in diesem Projekt untersuchen wollen.

In der audio-visuellen Sprachsynthese wird ein Sprach- und Videosignal einer sprechenden Person generiert. Audio-visuelle Synthese kann in der Kommunikationstechnologie und in Computerspielen eingesetzt werden. In diesem Projekt wurde die multimodale Modellierung für audio-visuelle Sprachsynthese von Dialekten untersucht. Da menschliche Sprache multimodal ist, wurde das akustische und visuelle Signal gemeinsam modelliert. In den meisten früheren Ansätzen wurden das akustische und das visuelle Signal separat modelliert, obwohl beide Signale das Resultat ein und desselben Artikulationsprozesses sind und deshalb gemeinsam modelliert werden sollten. Wir konnten in diesem Projekt zeigen, dass eine gemeinsame Modellierung von visuellem und akustischem Signal eine bessere visuelle Synthese ermöglicht bei gleichbleibender Qualität der akustischen Synthese. Durch die Verwendung von flexiblen Modellen, die über Parameter angepasst werden können, ist es möglich diese Modelle einfach wiederzuverwenden und verschiedene Transformationen auf sie anzuwenden. Außerdem konnten wir zeigen, dass durch die Anpassung von visuellen Durchschnittsmodellen mit neuen Daten eine bessere Modellierung erreicht werden kann als ohne die Verwendung von Hintergrunddaten. Mit dieser Methode ist es möglich mit wenigen visuellen Daten einer Person ein neues Modell zu trainieren.Zur Kontrolle von akustischen Modellen, die sehr viele Parameter haben, haben wir eine Methode entwickelt mit der auf der Basis von visuellen Parametern die akustischen Parameter geändert werden können. So kann zum Beispiel durch die Öffnung des Mundes im visuellen Modell die entsprechende akustische Änderung im akustischen Modell bewirkt werden.Für die Dialektmodellierung wurden aufwändige Aufnahmen zweier österreichischer Dialekte von 8 SprecherInnen gemacht, einer mittelbairischen Varietät, die im Salzkammergut gesprochen wird (Bad Goisern) und einer südbairischen Varietät aus Tirol (Innervillgraten). Für diese audio-visuellen Dialektaufnahmen für die Sprachsynthese haben wir eine eigene Methode zur phonetischen Datensammlung und audio-visuellen Aufnahme entwickelt. In der Modellierung haben wir Methoden entwickelt um die Dialektdaten optimal zu verwenden. Diese aufgenommenen Daten sind auch in anderen laufenden Projekten in Verwendung und werden auch in Zukunft noch wertvolle Erkenntnisse liefern.

Forschungsstätte(n)

Nationale Projektbeteiligte

Sylvia Moosmüller, Österreichische Akademie der Wissenschaften , assoziierte:r Forschungspartner:in

Research Output

233 Zitationen
14 Publikationen

Publikationen

Titel	Speaker-adaptive visual speech synthesis in the HMM-Framework.
Typ	Conference Proceeding Abstract
Autor	Hofer G Et Al

Titel	From Viennese to Austrian German and back again-An alogorithm for the realization of a variety-slider.
Typ	Conference Proceeding Abstract
Autor	Hofer G Et Al
Konferenz	SIDG 2012

Titel	Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audiovisual speech Synthesis.
Typ	Conference Proceeding Abstract
Autor	Hofer G Et Al
Konferenz	LREC 2012

Titel	DETECTION OF SYNTHETIC SPEECH FOR THE PROBLEM OF IMPOSTURE
DOI	10.1109/icassp.2011.5947440
Typ	Conference Proceeding Abstract
Autor	De Leon P
Seiten	4844-4847
Link	Publikation

Titel	Phone set selection for HMM-based dialect speech Synthesis.
Typ	Conference Proceeding Abstract
Autor	Pucher M

Titel	Proceedings Abstract Book.
Typ	Other
Autor	Pucher M

Titel	Visual Control of Hidden-Semi-Markov-Model based Acoustic Speech Synthesis.
Typ	Conference Proceeding Abstract
Autor	Hollenstein J
Konferenz	AVSP 2013

Titel	Objective and Subjective Feature Evaluation for Speaker-Adaptive Visual Speech Synthesis.
Typ	Conference Proceeding Abstract
Autor	Hofer G Et Al
Konferenz	AVSP 2013

Titel	The MMASCS multi-modal annotated synchronous corpus of audio, video, facial motion and tongue motion data of normal, fast and slow speech.
Typ	Conference Proceeding Abstract
Autor	Hoole P Et Al
Konferenz	LREC 2014

Titel	Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis
DOI	10.1016/j.specom.2015.06.005
Typ	Journal Article
Autor	Toman M
Journal	Speech Communication
Seiten	176-193
Link	Publikation

Titel	Joint Audiovisual Hidden Semi-Markov Model-Based Speech Synthesis
DOI	10.1109/jstsp.2013.2281036
Typ	Journal Article
Autor	Schabus D
Journal	IEEE Journal of Selected Topics in Signal Processing
Seiten	336-347
Link	Publikation

Titel	Sprachressourcen für adaptive Sprachsynthesen von Dialekten.
Typ	Conference Proceeding Abstract
Autor	Hofer G Et Al
Konferenz	SIDG 2012

Titel	Regionalizing Virtual Avatars - Towards Adaptive Audio-Visual Dialect Speech Synthesis.
Typ	Conference Proceeding Abstract
Autor	Moosmüller S Et Al
Konferenz	In Proc. 5th International Conference on Cognitive Systems, Vienna, Austria, 2012

Titel	Evaluation of Speaker Verification Security and Detection of HMM-Based Synthetic Speech
DOI	10.1109/tasl.2012.2201472
Typ	Journal Article
Autor	De Leon P
Journal	IEEE Transactions on Audio, Speech, and Language Processing
Seiten	2280-2290
Link	Publikation

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

Adaptive Audio-Visuelle Sprachsynthese von Dialekten

Adaptive Audio-Visual Dialect Speech Synthesis

Wissenschaftsdisziplinen

Keywords

Research Output

Kontakt

Allgemeines

Zur Übersichtsseite Entdecken

Zur Übersichtsseite Fördern

Zur Übersichtsseite Über uns

Zur Übersichtsseite Aktuelles

SOCIAL MEDIA

SCILOG

Adaptive Audio-Visuelle Sprachsynthese von Dialekten

Adaptive Audio-Visual Dialect Speech Synthesis

Wissenschaftsdisziplinen

Keywords

Research Output