• Zum Inhalt springen (Accesskey 1)
  • Zur Suche springen (Accesskey 7)
FWF — Österreichischer Wissenschaftsfonds
  • Zur Übersichtsseite Entdecken

    • Forschungsradar
      • Historisches Forschungsradar 1974–1994
    • Entdeckungen
      • Emmanuelle Charpentier
      • Adrian Constantin
      • Monika Henzinger
      • Ferenc Krausz
      • Wolfgang Lutz
      • Walter Pohl
      • Christa Schleper
      • Elly Tanaka
      • Anton Zeilinger
    • Impact Stories
      • Verena Gassner
      • Wolfgang Lechner
      • Georg Winter
    • scilog-Magazin
    • Austrian Science Awards
      • FWF-Wittgenstein-Preise
      • FWF-ASTRA-Preise
      • FWF-START-Preise
      • Auszeichnungsfeier
    • excellent=austria
      • Clusters of Excellence
      • Emerging Fields
    • Im Fokus
      • 40 Jahre Erwin-Schrödinger-Programm
      • Quantum Austria
      • Spezialforschungsbereiche
    • Dialog und Diskussion
      • think.beyond Summit
      • Am Puls
      • Was die Welt zusammenhält
      • FWF Women’s Circle
      • Science Lectures
    • Wissenstransfer-Events
    • E-Book Library
  • Zur Übersichtsseite Fördern

    • Förderportfolio
      • excellent=austria
        • Clusters of Excellence
        • Emerging Fields
      • Projekte
        • Einzelprojekte
        • Einzelprojekte International
        • Klinische Forschung
        • 1000 Ideen
        • Entwicklung und Erschließung der Künste
        • FWF-Wittgenstein-Preis
      • Karrieren
        • ESPRIT
        • FWF-ASTRA-Preise
        • Erwin Schrödinger
        • doc.funds
        • doc.funds.connect
      • Kooperationen
        • Spezialforschungsgruppen
        • Spezialforschungsbereiche
        • Forschungsgruppen
        • International – Multilaterale Initiativen
        • #ConnectingMinds
      • Kommunikation
        • Top Citizen Science
        • Wissenschaftskommunikation
        • Buchpublikationen
        • Digitale Publikationen
        • Open-Access-Pauschale
      • Themenförderungen
        • AI Mission Austria
        • Belmont Forum
        • ERA-NET HERA
        • ERA-NET NORFACE
        • ERA-NET QuantERA
        • ERA-NET TRANSCAN
        • Ersatzmethoden für Tierversuche
        • Europäische Partnerschaft Biodiversa+
        • Europäische Partnerschaft BrainHealth
        • Europäische Partnerschaft ERA4Health
        • Europäische Partnerschaft ERDERA
        • Europäische Partnerschaft EUPAHW
        • Europäische Partnerschaft FutureFoodS
        • Europäische Partnerschaft OHAMR
        • Europäische Partnerschaft PerMed
        • Europäische Partnerschaft Water4All
        • Gottfried-und-Vera-Weiss-Preis
        • netidee SCIENCE
        • Projekte der Herzfelder-Stiftung
        • Quantum Austria
        • Rückenwind-Förderbonus
        • WE&ME Award
        • Zero Emissions Award
      • Länderkooperationen
        • Belgien/Flandern
        • Deutschland
        • Frankreich
        • Italien/Südtirol
        • Japan
        • Luxemburg
        • Polen
        • Schweiz
        • Slowenien
        • Taiwan
        • Tirol–Südtirol–Trentino
        • Tschechien
        • Ungarn
    • Schritt für Schritt
      • Förderung finden
      • Antrag einreichen
      • Internationales Peer-Review
      • Förderentscheidung
      • Projekt durchführen
      • Projekt beenden
      • Weitere Informationen
        • Integrität und Ethik
        • Inklusion
        • Antragstellung aus dem Ausland
        • Personalkosten
        • PROFI
        • Projektendberichte
        • Projektendberichtsumfrage
    • FAQ
      • Projektphase PROFI
      • Projektphase Ad personam
      • Auslaufende Programme
        • Elise Richter und Elise Richter PEEK
        • FWF-START-Preise
  • Zur Übersichtsseite Über uns

    • Leitbild
    • FWF-Film
    • Werte
    • Zahlen und Daten
    • Jahresbericht
    • Aufgaben und Aktivitäten
      • Forschungsförderung
        • Matching-Funds-Förderungen
      • Internationale Kooperationen
      • Studien und Publikationen
      • Chancengleichheit und Diversität
        • Ziele und Prinzipien
        • Maßnahmen
        • Bias-Sensibilisierung in der Begutachtung
        • Begriffe und Definitionen
        • Karriere in der Spitzenforschung
      • Open Science
        • Open-Access-Policy
          • Open-Access-Policy für begutachtete Publikationen
          • Open-Access-Policy für begutachtete Buchpublikationen
          • Open-Access-Policy für Forschungsdaten
        • Forschungsdatenmanagement
        • Citizen Science
        • Open-Science-Infrastrukturen
        • Open-Science-Förderung
      • Evaluierungen und Qualitätssicherung
      • Wissenschaftliche Integrität
      • Wissenschaftskommunikation
      • Philanthropie
      • Nachhaltigkeit
    • Geschichte
    • Gesetzliche Grundlagen
    • Organisation
      • Gremien
        • Präsidium
        • Aufsichtsrat
        • Delegiertenversammlung
        • Kuratorium
        • Jurys
      • Geschäftsstelle
    • Arbeiten im FWF
  • Zur Übersichtsseite Aktuelles

    • News
    • Presse
      • Logos
    • Eventkalender
      • Veranstaltung eintragen
      • FWF-Infoveranstaltungen
    • Jobbörse
      • Job eintragen
    • Newsletter
  • Entdecken, 
    worauf es
    ankommt.

    FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

    SOCIAL MEDIA

    • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
    • , externe URL, öffnet sich in einem neuen Fenster
    • Facebook, externe URL, öffnet sich in einem neuen Fenster
    • Instagram, externe URL, öffnet sich in einem neuen Fenster
    • YouTube, externe URL, öffnet sich in einem neuen Fenster

    SCILOG

    • Scilog — Das Wissenschaftsmagazin des Österreichischen Wissenschaftsfonds (FWF)
  • elane-Login, externe URL, öffnet sich in einem neuen Fenster
  • Scilog externe URL, öffnet sich in einem neuen Fenster
  • en Switch to English

  

Längensteuerung für die Synthese deutscher Sprache

A Corpus Based Investigation into Segmental Duration in German Speech

Harald Trost (ORCID: )
  • Grant-DOI 10.55776/P13224
  • Förderprogramm Einzelprojekte
  • Status beendet
  • Projektbeginn 01.11.1998
  • Projektende 30.09.2002
  • Bewilligungssumme 148.979 €
  • Projekt-Website

Wissenschaftsdisziplinen

Informatik (85%); Sprach- und Literaturwissenschaften (15%)

Keywords

    SPRACHSYNTHESE, PROSODIE, COMPUTERLINGUISTIK, LANGUAGE ENGINEERING, ARTIFICIAL INTELLIGENCE

Abstract Endbericht

Automatische Sprachsynthese ist ein vielversprechendes Forschungsgebiet von steigender wirtschaftlicher Bedeutung. Entscheidend für den erfolgreichen Übergang von Nischenprodukten (z.B. Vorlesesysteme für Behinderte) zum breiten kommerziellen Einsatz in Bereichen wie Telekommunikation (z.B. Auskunfts- und Informationssysteme) und Telematik (z.B. Navigationssysteme im Auto) ist der natürliche Klang der synthetisierten Sprache. In den letzten Jahren wurden bedeutende Verbesserungen im Bereich der segmentalen (lautlichen) Qualität erreicht. Dadurch wurde aber auch klar, daß hochqualitative Sprachsynthese auch eine entsprechenden suprasegmentalen Qualität, d.h. eine natürliche und adäquate Prosodie, benötigt. Gleichzeitig ermöglichen es viele dieser neuen Anwendungsfelder auch, reichhaltige linguistische Information zur Verfügung zu stellen, wodurch auch eine nicht-neutrale (z.B. kontrastive) Satzbetonung relisiert werden kann. Derzeit konzentriert sich die Forschung im Bereich der Prosodie auf die Betonung und ihre Realisierung durch den Grundfrequenzverlauf (f0), während Dauer (und Lautheit) als zweitrangige, abhängige Parameter betrachtet werden. Wir meinen, daß eine intensivere Untersuchung der Dauer und ihres Zusammenhangs mit der Grundfrequenz nötig ist, bevor - falls überhaupt - ein solcher Schluß gezogen werden kann. Im vorgeschlagenen Projekt soll daher die Dauer als Parameter der gesprochenen deutschen Sprache untersucht werden, wobei wir zwei konkrete Ziele verfolgen: (a) ein besseres Modell der Dauer und insbesondere ihrer Interaktion mit dem Grundfrequenzverlauf zu entwickeln, da wir derzeit vorherrschende Modelle für zu einfach halten. Dies beinhaltet auch eine Untersuchung des Zusammenhangs von Informationsstruktur und prosodischen Parametern, um die Realisierung nicht-neutraler Prosodie zu ermöglichen. (b) durch die praktische Anwendung der Forschungsergebnisse auf die Dauersteuerung eines am Institut entwickelten Synthetisators eine natürlichere und adäquatere Prosodie und damit eine höhere Qualität der synthetisierten Sprache zu erreichen. Dieser Schritt bildet auch die Grundlage für eine experimentelle Evaluation der erzielten Ergebnisse. Methodisch soll diese Untersuchung durch Anwendung von Methoden des Maschinellen Lernens auf einen entsprechenden Korpus gesprochener Sprache durchgeführt werden. Dazu soll ein Korpus von einem österreichischen Sprecher aufgenommen und entsprechend annotiert werden. Dieser Korpus steht dann auch für die Untersuchung anderer Aspekte des gesprochenen österreichischen Deutsch zur Verfügung. Das vorliegende Projekt ist zugleich österreichischer Anteil an der COST-Aktion 258 "Natürlichkeit synthetisierter Sprache". An dieser Aktion sind Forschungsgruppen aus 14 europäischen Ländern beteiligt. Das Ziel ist, die Grundlagen für natürlichere synthetisierte Sprache zu erforschen, um den breiteren kommerziellen Einsatz dieser Technologie zu ermöglichen.

Natürlichkeit ist ein entscheidender Faktor für Akzeptanz und Verständlichkeit auto-matisch synthetisierter Sprache, wobei eine der wichtigsten zu kontrollierenden Grössen die Dauer der Sprachsegmente ist. Um die Dauer von Lauten in bestimmten Kontexten vorhersagen zu können, ist es notwendig, Daten gesprochener Sprache durch statistische Verfahren zu analysieren. Zu diesem Zweck wurde (erstmals) ein entsprechend großer Korpus von österreichischem Deutsch von einem Sprecher aufgenommen, segmentiert und annotiert. Durch maschinelle Lernverfahren war es möglich, zu entsprechenden Dauermodellen zu gelangen, deren Qualität anhand publizierter Methodiken überprüft wurde und die nun für die automatische Synthese der österreichischen Variante des Deutschen herangezogen werden können. Um unbegrenzten Sprachumfang möglichst natürlich zu synthetisieren, müssen folgende Faktoren kontrolliert werden: Intensität, Tonhöhe, und - vielleicht am wichtigsten - die Dauer einzelner akustischer Ereignisse. Dies ist unabhängig von der Methode, die man verwendet, um das tatsächliche Sprachsignal zu erzeugen, sei es die Nachbildung der Klang-charakteristika (Formantsynthese), die Ableitung des akustischen Signals von seiner Erzeugung her (artikulatorische Synthese), oder die Verbindung aufgenommener Teile des Sprachsignals (konkatenative Synthese). Das Problem der Modellierung von Dauern besteht darin, dass im Sprachsignal unter-schiedliche Informationen verpackt sind, die erst in ihrem Zusammenwirken kommunizierbar werden. Der Sprecher muss alles zugleich berücksichtigen, der Hörer muss aus dem kom-plexen Signal einzelne Komponenten wieder herausfiltern. Nichtsprachliche Informationen sind etwa der emotionale Zustand eines Sprechers, Einflussfaktoren sind Eigenheiten des Sprechers oder ein bestimmter Sprechstil. Dazu kommen die Phrasierung einer Äusserung sowie Hervorhebungen (Akzentuierung, Betonung). Sprachspezifische Faktoren sind dabei die sprachliche Struktur von der Satzebene (Syntax) bis zur Lautebene (Silbenstruktur). Daneben gibt es auch genuin phonetische Faktoren, wie die gegenseitige Beeinflussung von benachbarten Lauten, die sich auf die Dauer von einzelnen Segmenten auswirken. Wie kann man an diese komplexen Problemstellung herangehen? Entweder man postuliert einen Satz Regeln, deren Anwendung für jeden Laut einen Wert ergibt, der seine Dauer bestimmt. Oder man versucht mit statistischen Methoden möglichst genau natürliche Äußerungen nachzubilden. In diesem Projekt wurde letzterer Ansatz verfolgt. Dazu war es notwendig, einen Korpus gesprochener Sprache zu erstellen, der ausreichend groß und reich genug an kombinatorischer Vielfalt ist, damit maschinelle Lernverfahren valide Ergebnisse liefern können. Die Einflussfaktoren mussten kontrolliert (es wurde nur 1 Sprecher des österreichischen (Wiener) Standarddeutsch aufgenommen, im Vorlesestil) oder bestimmt werden (das heisst, alle Faktoren, von denen man vermutet, dass sie auf die Dauer Einfluss haben, mussten zugänglich sein, z.B. Phrasierung, Betonung, Silbenstruktur, Nachbarlaute). Außerdem war es notwendig, das Signal in einzelne Lautsegmente zu unterteilen, um für mögliche Dauern Referenzwerte zu haben. In unserem Korpus ergab dies eine Zahl von ca. 50.000 Segmenten, die zumindest händisch korrigiert worden sind. Im letzten Schritt wurden auf Grund der vorliegenden Daten durch maschinelle, statistische Verfahren Modelle generiert, die für jeden Laut in jedem Kontext einen Dauerwert vorhersagen. Zur Optimierung wurde einerseits mit unterschiedlichen Faktoren experimentiert, andererseits wurden verschiedene Verfahren getestet. Die Qualität der Ergebnisse steht den besten in der Literatur beschriebenen Verfahren um nichts nach. Das vielleicht bedeutendste Ergebnis dieses Forschungsprojekts ist, dass nun erstmals ein Modell für die Synthese von österreichischem Deutsch zur Verfügung steht.

Forschungsstätte(n)
  • ÖFAI - Österreichisches Forschungsinstitut für Artifical Intelligence - 100%
Nationale Projektbeteiligte
  • Gernot Kubin, Technische Universität Graz , assoziierte:r Forschungspartner:in
Internationale Projektbeteiligte
  • Gzregorz Dogil, Universität Stuttgart-Hohenheim - Deutschland

Entdecken, 
worauf es
ankommt.

Newsletter

FWF-Newsletter Presse-Newsletter Kalender-Newsletter Job-Newsletter scilog-Newsletter

Kontakt

Österreichischer Wissenschaftsfonds FWF
Georg-Coch-Platz 2
(Eingang Wiesingerstraße 4)
1010 Wien

office(at)fwf.ac.at
+43 1 505 67 40

Allgemeines

  • Jobbörse
  • Arbeiten im FWF
  • Presse
  • Philanthropie
  • scilog
  • Geschäftsstelle
  • Social Media Directory
  • LinkedIn, externe URL, öffnet sich in einem neuen Fenster
  • , externe URL, öffnet sich in einem neuen Fenster
  • Facebook, externe URL, öffnet sich in einem neuen Fenster
  • Instagram, externe URL, öffnet sich in einem neuen Fenster
  • YouTube, externe URL, öffnet sich in einem neuen Fenster
  • Cookies
  • Hinweisgeber:innensystem
  • Barrierefreiheitserklärung
  • Datenschutz
  • Impressum
  • IFG-Formular
  • Social Media Directory
  • © Österreichischer Wissenschaftsfonds FWF
© Österreichischer Wissenschaftsfonds FWF