Stimmumwandlung für die Verarbeitung pathologischer Sprache
Voice conversion for the processing of pathological speech
Wissenschaftsdisziplinen
Elektrotechnik, Elektronik, Informationstechnik (30%); Informatik (30%); Klinische Medizin (40%)
Keywords
-
Voice Conversion,
Outcome Prediction,
Laryngectomy,
Deep Learning,
Speech Pathology,
Voice Disorder
Für die meisten von uns ist Sprechen selbstverständlich. Doch für Menschen mit Sprachstörungen kann selbst ein einfaches Gespräch zur täglichen Herausforderung werden. Sie kämpfen damit, sich auszudrücken, fühlen sich frustriert, wenn sie missverstanden werden, und erleben manchmal sogar soziale Ausgrenzung. Das wirkt sich nicht nur auf ihr Privatleben aus, sondern auch auf Berufschancen und Lebensqualität. Unser Forschungsprojekt möchte hier helfen: Wir entwickeln moderne Sprachtechnologien, die sowohl medizinische Entscheidungen unterstützen als auch Menschen mit Sprachstörungen dabei helfen, verständlicher und natürlicher zu sprechen. Im Zentrum steht dabei die sogenannte Voice Conversion (VC), zu Deutsch in etwa Sprecherkonvertierung. Mit dieser Technik lassen sich Sprachaufnahmen so verändern, dass sie wie von einer anderen Person klingen der gesprochene Inhalt bleibt dabei unverändert. Manche kennen diese Technologie vielleicht von Deepfake-Videos, in denen Sprecher missbräuchlich nachgeahmt werden, etwa für Betrug oder Desinformation. Unser Projekt nutzt VC hingegen verantwortungsvoll und zum Wohl der Betroffenen: Wir wollen Menschen mit Sprachstörungen helfen, eine Stimme zu bekommen, die natürlicher, emotionaler und leichter verständlich ist. Wir verfolgen zwei Hauptziele. Erstens möchten wir die Sprachqualität von Menschen zu verbessern, deren Stimme auch nach einer Behandlung noch stark beeinträchtigt klingt. Dazu gehören Nutzer:innen von Ersatzstimmen wie dem Elektrolarynx, der eine monotone, mechanische Stimme erzeugt, sowie Menschen, die auf eine Stimmprothese angewiesen sind dabei wird Luft über ein kleines Ventil vom Hals in die Speiseröhre geleitet oder auf eine Rülps-Stimme, bei der Luft in die Speiseröhre geschluckt und kontrolliert abgegeben wird. Auch diese klingen oft angestrengt und unnatürlich. Ähnliches gilt für Menschen mit chronischer Heiserkeit, deren Stimme rau, heiser oder kraftlos wirkt. In all diesen Fällen fehlt es der Sprache häufig an Natürlichkeit, Ausdruck und Klarheit was Gespräche anstrengend macht und emotionale Nähe erschwert. Stellen Sie sich vor, Sie wollen am Telefon etwas Persönliches sagen, klingen aber dabei monoton oder roboterhaft genau so erleben viele Betroffene ihren Alltag. Zweitens möchten wir VC einsetzen, um vorherzusagen, wie die Stimme einer Person nach einer Behandlung klingen könnte. So erhalten Patient:innen und Ärzt:innen eine realistische Vorschau möglicher Ergebnisse, was die Planung von Therapien erleichtert. Wir entwickeln Technologien, die nicht nur Sprachaufnahmen verbessern, sondern in Echtzeit auch Biosignale sowie Mimik und Gestik auswerten, um der Stimme wieder Emotion, Persönlichkeit und Ausdruck zu geben für natürlichere Gespräche, egal ob am Telefon oder von Angesicht zu Angesicht. Unser Ziel ist es, Menschen mit Sprachstörungen ihre Stimme zurückzugeben nicht nur als Mittel zur Verständigung, sondern als lebendigen, ausdrucksstarken Teil ihrer Persönlichkeit.
- Barbara Schuppler, Technische Universität Graz , nationale:r Kooperationspartner:in
- Franz Pernkopf, Technische Universität Graz , nationale:r Kooperationspartner:in
- Martin Hagmüller, Technische Universität Graz , assoziierte:r Forschungspartner:in
- Tomoki Toda, University Nagoya - Japan