Adaptive Audio-Visuelle Sprachsynthese von Dialekten
Adaptive Audio-Visual Dialect Speech Synthesis
Wissenschaftsdisziplinen
Informatik (85%); Sprach- und Literaturwissenschaften (15%)
Keywords
-
Speech Synthesis,
Visual Synthesis,
Dialect
In diesem Projekt werden wir die multimodale Adaptation für audio-visuelle Sprachsynthese untersuchen. Da menschliche Sprache multimodal ist, wollen wir auch das akustische und visuelle Signal gemeinsam modellieren. Im sprachlichen Verhalten können wir zwischen Intra-SprecherInnen-Variabilität (z.B. Variabilität abhängig von Sprechsituationen, Sprechaufgaben und emotionalen Zuständen eines/einer SprecherIn) und Inter-SprecherInnen- Variabilität (z.B. soziolektale und/oder dialektale Variabilität) unterscheiden. Die zweite Art von Variabilität kann modelliert werden, indem durchschnittliche Sprachmodelle von SprecherInnen verschiedener Dialekte auf eine/n SprecherIn eines bestimmten Dialekts adaptiert werden. Dialekt wird als eine Quelle der Variation verwendet, um unsere Forschungen an den Wiener Soziolekten auf andere österreichische Dialekte auszuweiten, und um grundlegende Forschungsfragen im Bereich der audio-visuellen Synthese von Dialekten zu untersuchen. In der audio-visuellen Sprachsynthese wird ein Sprach- und Videosignal einer sprechenden Person generiert. In den meisten früheren Ansätzen wurden das akustische und das visuelle Signal separat modelliert, obwohl beide Signale das Resultat ein und desselben Artikulationsprozesses sind und deshalb gemeinsam modelliert werden sollten. Die Verwendung von visueller Information kann darüber hinaus auch zu einer besseren akustischen Synthese führen. Daher wollen wir Methoden entwickeln, die es uns erlauben das akustische und das visuelle Signal gemeinsam zu modellieren. Mit diesen Methoden wollen wir akustische und visuelle Signale für verschiedene österreichische Dialekte generieren. Durch die Verwendung von hidden Markov Modellen (HMM) für die akustische und visuelle Synthese ist es möglich, beide Merkmalsequenzen in einem gemeinsamen Modell zu kombinieren. Ein wichtiger Aspekt unserer Arbeit ist daher die multimodale Adaptation von audio-visuellen Synthesemodellen. Die gemeinsame Adaptation akustischer und visueller Modelle an multimodale audio-visuelle Modelle wurde noch nicht untersucht und führt zu einer Reihe wichtiger Forschungsfragen, die wir in diesem Projekt untersuchen wollen.
In der audio-visuellen Sprachsynthese wird ein Sprach- und Videosignal einer sprechenden Person generiert. Audio-visuelle Synthese kann in der Kommunikationstechnologie und in Computerspielen eingesetzt werden. In diesem Projekt wurde die multimodale Modellierung für audio-visuelle Sprachsynthese von Dialekten untersucht. Da menschliche Sprache multimodal ist, wurde das akustische und visuelle Signal gemeinsam modelliert. In den meisten früheren Ansätzen wurden das akustische und das visuelle Signal separat modelliert, obwohl beide Signale das Resultat ein und desselben Artikulationsprozesses sind und deshalb gemeinsam modelliert werden sollten. Wir konnten in diesem Projekt zeigen, dass eine gemeinsame Modellierung von visuellem und akustischem Signal eine bessere visuelle Synthese ermöglicht bei gleichbleibender Qualität der akustischen Synthese. Durch die Verwendung von flexiblen Modellen, die über Parameter angepasst werden können, ist es möglich diese Modelle einfach wiederzuverwenden und verschiedene Transformationen auf sie anzuwenden. Außerdem konnten wir zeigen, dass durch die Anpassung von visuellen Durchschnittsmodellen mit neuen Daten eine bessere Modellierung erreicht werden kann als ohne die Verwendung von Hintergrunddaten. Mit dieser Methode ist es möglich mit wenigen visuellen Daten einer Person ein neues Modell zu trainieren.Zur Kontrolle von akustischen Modellen, die sehr viele Parameter haben, haben wir eine Methode entwickelt mit der auf der Basis von visuellen Parametern die akustischen Parameter geändert werden können. So kann zum Beispiel durch die Öffnung des Mundes im visuellen Modell die entsprechende akustische Änderung im akustischen Modell bewirkt werden.Für die Dialektmodellierung wurden aufwändige Aufnahmen zweier österreichischer Dialekte von 8 SprecherInnen gemacht, einer mittelbairischen Varietät, die im Salzkammergut gesprochen wird (Bad Goisern) und einer südbairischen Varietät aus Tirol (Innervillgraten). Für diese audio-visuellen Dialektaufnahmen für die Sprachsynthese haben wir eine eigene Methode zur phonetischen Datensammlung und audio-visuellen Aufnahme entwickelt. In der Modellierung haben wir Methoden entwickelt um die Dialektdaten optimal zu verwenden. Diese aufgenommenen Daten sind auch in anderen laufenden Projekten in Verwendung und werden auch in Zukunft noch wertvolle Erkenntnisse liefern.
- Sylvia Moosmüller, Österreichische Akademie der Wissenschaften , assoziierte:r Forschungspartner:in
Research Output
- 233 Zitationen
- 14 Publikationen
-
2012
Titel Speaker-adaptive visual speech synthesis in the HMM-Framework. Typ Conference Proceeding Abstract Autor Hofer G Et Al -
2012
Titel From Viennese to Austrian German and back again-An alogorithm for the realization of a variety-slider. Typ Conference Proceeding Abstract Autor Hofer G Et Al Konferenz SIDG 2012 -
2012
Titel Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audiovisual speech Synthesis. Typ Conference Proceeding Abstract Autor Hofer G Et Al Konferenz LREC 2012 -
2011
Titel DETECTION OF SYNTHETIC SPEECH FOR THE PROBLEM OF IMPOSTURE DOI 10.1109/icassp.2011.5947440 Typ Conference Proceeding Abstract Autor De Leon P Seiten 4844-4847 Link Publikation -
2011
Titel Phone set selection for HMM-based dialect speech Synthesis. Typ Conference Proceeding Abstract Autor Pucher M -
0
Titel Proceedings Abstract Book. Typ Other Autor Pucher M -
2013
Titel Visual Control of Hidden-Semi-Markov-Model based Acoustic Speech Synthesis. Typ Conference Proceeding Abstract Autor Hollenstein J Konferenz AVSP 2013 -
2013
Titel Objective and Subjective Feature Evaluation for Speaker-Adaptive Visual Speech Synthesis. Typ Conference Proceeding Abstract Autor Hofer G Et Al Konferenz AVSP 2013 -
2014
Titel The MMASCS multi-modal annotated synchronous corpus of audio, video, facial motion and tongue motion data of normal, fast and slow speech. Typ Conference Proceeding Abstract Autor Hoole P Et Al Konferenz LREC 2014 -
2015
Titel Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis DOI 10.1016/j.specom.2015.06.005 Typ Journal Article Autor Toman M Journal Speech Communication Seiten 176-193 Link Publikation -
2013
Titel Joint Audiovisual Hidden Semi-Markov Model-Based Speech Synthesis DOI 10.1109/jstsp.2013.2281036 Typ Journal Article Autor Schabus D Journal IEEE Journal of Selected Topics in Signal Processing Seiten 336-347 Link Publikation -
2012
Titel Sprachressourcen für adaptive Sprachsynthesen von Dialekten. Typ Conference Proceeding Abstract Autor Hofer G Et Al Konferenz SIDG 2012 -
2012
Titel Regionalizing Virtual Avatars - Towards Adaptive Audio-Visual Dialect Speech Synthesis. Typ Conference Proceeding Abstract Autor Moosmüller S Et Al Konferenz In Proc. 5th International Conference on Cognitive Systems, Vienna, Austria, 2012 -
2012
Titel Evaluation of Speaker Verification Security and Detection of HMM-Based Synthetic Speech DOI 10.1109/tasl.2012.2201472 Typ Journal Article Autor De Leon P Journal IEEE Transactions on Audio, Speech, and Language Processing Seiten 2280-2290 Link Publikation