Längensteuerung für die Synthese deutscher Sprache
A Corpus Based Investigation into Segmental Duration in German Speech
Wissenschaftsdisziplinen
Informatik (85%); Sprach- und Literaturwissenschaften (15%)
Keywords
-
SPRACHSYNTHESE,
PROSODIE,
COMPUTERLINGUISTIK,
LANGUAGE ENGINEERING,
ARTIFICIAL INTELLIGENCE
Automatische Sprachsynthese ist ein vielversprechendes Forschungsgebiet von steigender wirtschaftlicher Bedeutung. Entscheidend für den erfolgreichen Übergang von Nischenprodukten (z.B. Vorlesesysteme für Behinderte) zum breiten kommerziellen Einsatz in Bereichen wie Telekommunikation (z.B. Auskunfts- und Informationssysteme) und Telematik (z.B. Navigationssysteme im Auto) ist der natürliche Klang der synthetisierten Sprache. In den letzten Jahren wurden bedeutende Verbesserungen im Bereich der segmentalen (lautlichen) Qualität erreicht. Dadurch wurde aber auch klar, daß hochqualitative Sprachsynthese auch eine entsprechenden suprasegmentalen Qualität, d.h. eine natürliche und adäquate Prosodie, benötigt. Gleichzeitig ermöglichen es viele dieser neuen Anwendungsfelder auch, reichhaltige linguistische Information zur Verfügung zu stellen, wodurch auch eine nicht-neutrale (z.B. kontrastive) Satzbetonung relisiert werden kann. Derzeit konzentriert sich die Forschung im Bereich der Prosodie auf die Betonung und ihre Realisierung durch den Grundfrequenzverlauf (f0), während Dauer (und Lautheit) als zweitrangige, abhängige Parameter betrachtet werden. Wir meinen, daß eine intensivere Untersuchung der Dauer und ihres Zusammenhangs mit der Grundfrequenz nötig ist, bevor - falls überhaupt - ein solcher Schluß gezogen werden kann. Im vorgeschlagenen Projekt soll daher die Dauer als Parameter der gesprochenen deutschen Sprache untersucht werden, wobei wir zwei konkrete Ziele verfolgen: (a) ein besseres Modell der Dauer und insbesondere ihrer Interaktion mit dem Grundfrequenzverlauf zu entwickeln, da wir derzeit vorherrschende Modelle für zu einfach halten. Dies beinhaltet auch eine Untersuchung des Zusammenhangs von Informationsstruktur und prosodischen Parametern, um die Realisierung nicht-neutraler Prosodie zu ermöglichen. (b) durch die praktische Anwendung der Forschungsergebnisse auf die Dauersteuerung eines am Institut entwickelten Synthetisators eine natürlichere und adäquatere Prosodie und damit eine höhere Qualität der synthetisierten Sprache zu erreichen. Dieser Schritt bildet auch die Grundlage für eine experimentelle Evaluation der erzielten Ergebnisse. Methodisch soll diese Untersuchung durch Anwendung von Methoden des Maschinellen Lernens auf einen entsprechenden Korpus gesprochener Sprache durchgeführt werden. Dazu soll ein Korpus von einem österreichischen Sprecher aufgenommen und entsprechend annotiert werden. Dieser Korpus steht dann auch für die Untersuchung anderer Aspekte des gesprochenen österreichischen Deutsch zur Verfügung. Das vorliegende Projekt ist zugleich österreichischer Anteil an der COST-Aktion 258 "Natürlichkeit synthetisierter Sprache". An dieser Aktion sind Forschungsgruppen aus 14 europäischen Ländern beteiligt. Das Ziel ist, die Grundlagen für natürlichere synthetisierte Sprache zu erforschen, um den breiteren kommerziellen Einsatz dieser Technologie zu ermöglichen.
Natürlichkeit ist ein entscheidender Faktor für Akzeptanz und Verständlichkeit auto-matisch synthetisierter Sprache, wobei eine der wichtigsten zu kontrollierenden Grössen die Dauer der Sprachsegmente ist. Um die Dauer von Lauten in bestimmten Kontexten vorhersagen zu können, ist es notwendig, Daten gesprochener Sprache durch statistische Verfahren zu analysieren. Zu diesem Zweck wurde (erstmals) ein entsprechend großer Korpus von österreichischem Deutsch von einem Sprecher aufgenommen, segmentiert und annotiert. Durch maschinelle Lernverfahren war es möglich, zu entsprechenden Dauermodellen zu gelangen, deren Qualität anhand publizierter Methodiken überprüft wurde und die nun für die automatische Synthese der österreichischen Variante des Deutschen herangezogen werden können. Um unbegrenzten Sprachumfang möglichst natürlich zu synthetisieren, müssen folgende Faktoren kontrolliert werden: Intensität, Tonhöhe, und - vielleicht am wichtigsten - die Dauer einzelner akustischer Ereignisse. Dies ist unabhängig von der Methode, die man verwendet, um das tatsächliche Sprachsignal zu erzeugen, sei es die Nachbildung der Klang-charakteristika (Formantsynthese), die Ableitung des akustischen Signals von seiner Erzeugung her (artikulatorische Synthese), oder die Verbindung aufgenommener Teile des Sprachsignals (konkatenative Synthese). Das Problem der Modellierung von Dauern besteht darin, dass im Sprachsignal unter-schiedliche Informationen verpackt sind, die erst in ihrem Zusammenwirken kommunizierbar werden. Der Sprecher muss alles zugleich berücksichtigen, der Hörer muss aus dem kom-plexen Signal einzelne Komponenten wieder herausfiltern. Nichtsprachliche Informationen sind etwa der emotionale Zustand eines Sprechers, Einflussfaktoren sind Eigenheiten des Sprechers oder ein bestimmter Sprechstil. Dazu kommen die Phrasierung einer Äusserung sowie Hervorhebungen (Akzentuierung, Betonung). Sprachspezifische Faktoren sind dabei die sprachliche Struktur von der Satzebene (Syntax) bis zur Lautebene (Silbenstruktur). Daneben gibt es auch genuin phonetische Faktoren, wie die gegenseitige Beeinflussung von benachbarten Lauten, die sich auf die Dauer von einzelnen Segmenten auswirken. Wie kann man an diese komplexen Problemstellung herangehen? Entweder man postuliert einen Satz Regeln, deren Anwendung für jeden Laut einen Wert ergibt, der seine Dauer bestimmt. Oder man versucht mit statistischen Methoden möglichst genau natürliche Äußerungen nachzubilden. In diesem Projekt wurde letzterer Ansatz verfolgt. Dazu war es notwendig, einen Korpus gesprochener Sprache zu erstellen, der ausreichend groß und reich genug an kombinatorischer Vielfalt ist, damit maschinelle Lernverfahren valide Ergebnisse liefern können. Die Einflussfaktoren mussten kontrolliert (es wurde nur 1 Sprecher des österreichischen (Wiener) Standarddeutsch aufgenommen, im Vorlesestil) oder bestimmt werden (das heisst, alle Faktoren, von denen man vermutet, dass sie auf die Dauer Einfluss haben, mussten zugänglich sein, z.B. Phrasierung, Betonung, Silbenstruktur, Nachbarlaute). Außerdem war es notwendig, das Signal in einzelne Lautsegmente zu unterteilen, um für mögliche Dauern Referenzwerte zu haben. In unserem Korpus ergab dies eine Zahl von ca. 50.000 Segmenten, die zumindest händisch korrigiert worden sind. Im letzten Schritt wurden auf Grund der vorliegenden Daten durch maschinelle, statistische Verfahren Modelle generiert, die für jeden Laut in jedem Kontext einen Dauerwert vorhersagen. Zur Optimierung wurde einerseits mit unterschiedlichen Faktoren experimentiert, andererseits wurden verschiedene Verfahren getestet. Die Qualität der Ergebnisse steht den besten in der Literatur beschriebenen Verfahren um nichts nach. Das vielleicht bedeutendste Ergebnis dieses Forschungsprojekts ist, dass nun erstmals ein Modell für die Synthese von österreichischem Deutsch zur Verfügung steht.
- Gernot Kubin, Technische Universität Graz , assoziierte:r Forschungspartner:in
- Gzregorz Dogil, Universität Stuttgart-Hohenheim - Deutschland