• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • ERA-NET TRANSCAN
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft BrainHealth
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol–Südtirol–Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

Adaptive Audio-Visuelle Sprachsynthese von Dialekten

Adaptive Audio-Visual Dialect Speech Synthesis

Michael Pucher (ORCID: 0000-0002-5374-1342)
  • Grant-DOI 10.55776/P22890
  • Förderprogramm Einzelprojekte
  • Status beendet
  • Projektbeginn 01.01.2011
  • Projektende 30.09.2014
  • Bewilligungssumme 299.526 €

Wissenschaftsdisziplinen

Informatik (85%); Sprach- und Literaturwissenschaften (15%)

Keywords

    Speech Synthesis, Visual Synthesis, Dialect

Abstract Endbericht

In diesem Projekt werden wir die multimodale Adaptation für audio-visuelle Sprachsynthese untersuchen. Da menschliche Sprache multimodal ist, wollen wir auch das akustische und visuelle Signal gemeinsam modellieren. Im sprachlichen Verhalten können wir zwischen Intra-SprecherInnen-Variabilität (z.B. Variabilität abhängig von Sprechsituationen, Sprechaufgaben und emotionalen Zuständen eines/einer SprecherIn) und Inter-SprecherInnen- Variabilität (z.B. soziolektale und/oder dialektale Variabilität) unterscheiden. Die zweite Art von Variabilität kann modelliert werden, indem durchschnittliche Sprachmodelle von SprecherInnen verschiedener Dialekte auf eine/n SprecherIn eines bestimmten Dialekts adaptiert werden. Dialekt wird als eine Quelle der Variation verwendet, um unsere Forschungen an den Wiener Soziolekten auf andere österreichische Dialekte auszuweiten, und um grundlegende Forschungsfragen im Bereich der audio-visuellen Synthese von Dialekten zu untersuchen. In der audio-visuellen Sprachsynthese wird ein Sprach- und Videosignal einer sprechenden Person generiert. In den meisten früheren Ansätzen wurden das akustische und das visuelle Signal separat modelliert, obwohl beide Signale das Resultat ein und desselben Artikulationsprozesses sind und deshalb gemeinsam modelliert werden sollten. Die Verwendung von visueller Information kann darüber hinaus auch zu einer besseren akustischen Synthese führen. Daher wollen wir Methoden entwickeln, die es uns erlauben das akustische und das visuelle Signal gemeinsam zu modellieren. Mit diesen Methoden wollen wir akustische und visuelle Signale für verschiedene österreichische Dialekte generieren. Durch die Verwendung von hidden Markov Modellen (HMM) für die akustische und visuelle Synthese ist es möglich, beide Merkmalsequenzen in einem gemeinsamen Modell zu kombinieren. Ein wichtiger Aspekt unserer Arbeit ist daher die multimodale Adaptation von audio-visuellen Synthesemodellen. Die gemeinsame Adaptation akustischer und visueller Modelle an multimodale audio-visuelle Modelle wurde noch nicht untersucht und führt zu einer Reihe wichtiger Forschungsfragen, die wir in diesem Projekt untersuchen wollen.

In der audio-visuellen Sprachsynthese wird ein Sprach- und Videosignal einer sprechenden Person generiert. Audio-visuelle Synthese kann in der Kommunikationstechnologie und in Computerspielen eingesetzt werden. In diesem Projekt wurde die multimodale Modellierung für audio-visuelle Sprachsynthese von Dialekten untersucht. Da menschliche Sprache multimodal ist, wurde das akustische und visuelle Signal gemeinsam modelliert. In den meisten früheren Ansätzen wurden das akustische und das visuelle Signal separat modelliert, obwohl beide Signale das Resultat ein und desselben Artikulationsprozesses sind und deshalb gemeinsam modelliert werden sollten. Wir konnten in diesem Projekt zeigen, dass eine gemeinsame Modellierung von visuellem und akustischem Signal eine bessere visuelle Synthese ermöglicht bei gleichbleibender Qualität der akustischen Synthese. Durch die Verwendung von flexiblen Modellen, die über Parameter angepasst werden können, ist es möglich diese Modelle einfach wiederzuverwenden und verschiedene Transformationen auf sie anzuwenden. Außerdem konnten wir zeigen, dass durch die Anpassung von visuellen Durchschnittsmodellen mit neuen Daten eine bessere Modellierung erreicht werden kann als ohne die Verwendung von Hintergrunddaten. Mit dieser Methode ist es möglich mit wenigen visuellen Daten einer Person ein neues Modell zu trainieren.Zur Kontrolle von akustischen Modellen, die sehr viele Parameter haben, haben wir eine Methode entwickelt mit der auf der Basis von visuellen Parametern die akustischen Parameter geändert werden können. So kann zum Beispiel durch die Öffnung des Mundes im visuellen Modell die entsprechende akustische Änderung im akustischen Modell bewirkt werden.Für die Dialektmodellierung wurden aufwändige Aufnahmen zweier österreichischer Dialekte von 8 SprecherInnen gemacht, einer mittelbairischen Varietät, die im Salzkammergut gesprochen wird (Bad Goisern) und einer südbairischen Varietät aus Tirol (Innervillgraten). Für diese audio-visuellen Dialektaufnahmen für die Sprachsynthese haben wir eine eigene Methode zur phonetischen Datensammlung und audio-visuellen Aufnahme entwickelt. In der Modellierung haben wir Methoden entwickelt um die Dialektdaten optimal zu verwenden. Diese aufgenommenen Daten sind auch in anderen laufenden Projekten in Verwendung und werden auch in Zukunft noch wertvolle Erkenntnisse liefern.

Forschungsstätte(n)
  • Österreichische Akademie der Wissenschaften - 11%
  • FTW Forschungszentrum Telekommunikation - 89%
Nationale Projektbeteiligte
  • Sylvia Moosmüller, Österreichische Akademie der Wissenschaften , assoziierte:r Forschungspartner:in

Research Output

  • 233 Zitationen
  • 14 Publikationen
Publikationen
  • 2012
    Titel Speaker-adaptive visual speech synthesis in the HMM-Framework.
    Typ Conference Proceeding Abstract
    Autor Hofer G Et Al
  • 2012
    Titel From Viennese to Austrian German and back again-An alogorithm for the realization of a variety-slider.
    Typ Conference Proceeding Abstract
    Autor Hofer G Et Al
    Konferenz SIDG 2012
  • 2012
    Titel Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audiovisual speech Synthesis.
    Typ Conference Proceeding Abstract
    Autor Hofer G Et Al
    Konferenz LREC 2012
  • 2011
    Titel DETECTION OF SYNTHETIC SPEECH FOR THE PROBLEM OF IMPOSTURE
    DOI 10.1109/icassp.2011.5947440
    Typ Conference Proceeding Abstract
    Autor De Leon P
    Seiten 4844-4847
    Link Publikation
  • 2011
    Titel Phone set selection for HMM-based dialect speech Synthesis.
    Typ Conference Proceeding Abstract
    Autor Pucher M
  • 0
    Titel Proceedings Abstract Book.
    Typ Other
    Autor Pucher M
  • 2013
    Titel Visual Control of Hidden-Semi-Markov-Model based Acoustic Speech Synthesis.
    Typ Conference Proceeding Abstract
    Autor Hollenstein J
    Konferenz AVSP 2013
  • 2013
    Titel Objective and Subjective Feature Evaluation for Speaker-Adaptive Visual Speech Synthesis.
    Typ Conference Proceeding Abstract
    Autor Hofer G Et Al
    Konferenz AVSP 2013
  • 2014
    Titel The MMASCS multi-modal annotated synchronous corpus of audio, video, facial motion and tongue motion data of normal, fast and slow speech.
    Typ Conference Proceeding Abstract
    Autor Hoole P Et Al
    Konferenz LREC 2014
  • 2015
    Titel Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis
    DOI 10.1016/j.specom.2015.06.005
    Typ Journal Article
    Autor Toman M
    Journal Speech Communication
    Seiten 176-193
    Link Publikation
  • 2013
    Titel Joint Audiovisual Hidden Semi-Markov Model-Based Speech Synthesis
    DOI 10.1109/jstsp.2013.2281036
    Typ Journal Article
    Autor Schabus D
    Journal IEEE Journal of Selected Topics in Signal Processing
    Seiten 336-347
    Link Publikation
  • 2012
    Titel Sprachressourcen für adaptive Sprachsynthesen von Dialekten.
    Typ Conference Proceeding Abstract
    Autor Hofer G Et Al
    Konferenz SIDG 2012
  • 2012
    Titel Regionalizing Virtual Avatars - Towards Adaptive Audio-Visual Dialect Speech Synthesis.
    Typ Conference Proceeding Abstract
    Autor Moosmüller S Et Al
    Konferenz In Proc. 5th International Conference on Cognitive Systems, Vienna, Austria, 2012
  • 2012
    Titel Evaluation of Speaker Verification Security and Detection of HMM-Based Synthetic Speech
    DOI 10.1109/tasl.2012.2201472
    Typ Journal Article
    Autor De Leon P
    Journal IEEE Transactions on Audio, Speech, and Language Processing
    Seiten 2280-2290
    Link Publikation

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • Impressum
  • IFG-Formular
  • Social Media Directory
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF