Visuelles Biofeedback für die Sprachtherapie

Share on facebook
Share on twitter
Share on linkedin
Share on xing
Share on whatsapp
Share on email
Share on print

Visuelles Biofeedback für die Sprachtherapie

Share on facebook
Share on twitter
Share on linkedin
Share on xing
Share on whatsapp
Share on email
Share on print

Eine Gruppe von Wissenschaftlern am  GIPSA-Lab (CNRS/ Université Grenoble Alpes/Grenoble INP) und am INRIA Grenoble Rhône-Alpes hat ein ultraschallbasiertes System entwickelt, dass die Bewegung der Zunge beim Sprechen in Echtzeit erfasst und einen Avatar steuert. Ein solches visuelles Biofeedback soll für eine bessere Verständlichkeit sorgen, indem sich die Aussprache, etwa bei Artikulationsfehlern oder nach Operationen an der Zunge, präziser korrigieren ließe.  

gipsa_unten

Eine Gruppe von Wissenschaftlern am  GIPSA-Lab (CNRS/ Université Grenoble Alpes/Grenoble INP) und am INRIA Grenoble Rhône-Alpes hat ein ultraschallbasiertes System entwickelt, dass die Bewegung der Zunge beim Sprechen in Echtzeit erfasst und einen Avatar steuert. Ein solches visuelles Biofeedback soll für eine bessere Verständlichkeit sorgen, indem sich die Aussprache, etwa bei Artikulationsfehlern oder nach Operationen an der Zunge, präziser korrigieren ließe.  

Dafür wird ein Ultraschall-Gerätekopf unter dem Unterkiefer platziert. Ein auf maschinellem Lernen beruhender Algorithmus berechnet die Bewegungen und steuert einen virtuellen Sprecher. Dieser Avatar zeigt nicht nur Gesicht und Lippen, sondern auch die üblicherweise verborgenen Bereiche des Vokaltrakts wie Zunge, Gaumen und Zähne.

Ein solches visuelles Biofeedback sollte für eine bessere Verständlichkeit sorgen, so dass sich die Aussprache präziser korrigieren ließe. Die Lösung könnte sich in der Sprachtherapie oder beim Lernen von Fremdsprachen bewähren. Publiziert wird die Arbeit in der Oktober-Ausgabe von Speech Communication.

Für eine Person mit Artikulationsschwächen nutzt die Sprachtherapie oft sich wiederholende Übungen: der Therapeut analysiert die Aussprache des Patienten und erklärt mündlich und mit Zeichnungen, wie die Artikulationsorgane, speziell die Zunge, zu platzieren sind. Das ist den Patienten meist nicht bewusst. Die Wirksamkeit der Therapie hängt davon ab, wie gut der Patient das Gesagte verinnerlichen kann. Hier setzen die Lösungen für das visuelle Biofeedback an. Damit verfolgen die Patienten ihre artikulatorischen Bewegungen und dabei besonders die der Zunge in Echtzeit. Sie nehmen diese Bewegungen bewusst wahr und können Aussprachefehler schneller korrigieren.

Seit mehreren Jahren verwenden Wissenschaftler Ultraschall, um Biofeedback-Systeme zu entwickeln. Das Bild der Zunge entsteht mit Hilfe einer Ultraschallsonde unter dem Kiefer ähnlich der typischerweise verwendeten, um etwa ein Bild vom Herzen oder vom ungeborenen Kind zu gewinnen. Ein solches Bild gilt als schwierig zu interpretieren für den Patienten, denn die Qualität lässt zu wünschen übrig und liefert keinerlei Informationen über die Position von Gaumen und Zähnen. Die Entwickler haben nun das visuelle Feedback verbessert, indem mit den Ultraschallbildern einen virtuellen Sprecher in Echtzeit animieren. Dieser Klon eines echten Sprechers, an dem das GIPSA-Lab seit vielen Jahren arbeitet, liefert eine kontextualisierte und daher natürlicher wirkende Visualisierung der artikulatorischen Bewegungen.

Die Stärke des Konzepts liegt in einem Algorithmus, der auf maschinellem Lernen beruht. Dieser kann in gewissen Grenzen Bewegungen des Sprechapparats berechnen, welche die Anwender nicht leisten können, wenn sie das System anfangen zu nutzen. Für die therapeutisch erwünschten Effekte ist die Eigenschaft unerlässlich. Der Algorithmus setzt auf ein probabilistisches Modell auf der Basis einer großen Datenbank. Ein „professioneller“ Sprecher hat dazu alle Töne in einer oder mehreren Sprachen artikuliert. Dieses Modell wird nach einer kurzen Kalibrierung des Systems, in der der Patient einige Sätze aussprechen muss, automatisch an dessen Morphologie angepasst.

Im Labor bereits mit gesunden Sprechern getestet, kommt das System nun in einer vereinfachten Version in klinischen Studien an Patienten zum Einsatz, die an der Zunge operiert worden sind. In Arbeit ist auch eine weitere Version, bei der der virtuelle Sprecher nicht per Ultraschall, sondern direkt von der Stimme des Anwenders animiert wird. [1].

 

[1] siehe Speaker-Adaptive Acoustic-Articulatory Inversion using Cascaded Gaussian Mixture Regression. Hueber, T., Girin, L., Alameda-Pineda, X., Bailly, G. (2015), in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 12, pp. 2246-2259.

Literatur: Automatic animation of an articulatory tongue model from ultrasound images of the vocal tract. Fabre, D., Hueber, T., Girin, L., Alameda-Pineda, X., Badin, P. (2017). Speech Communication, vol. 93, pp. 63-75.

Video: https://www.youtube.com/watch?v=u8jb4b0fMsE

 

Bild: Beispiel für die Animation des virtuellen Sprechers auf der Basis von Ultraschallbildern und mit Hilfe des Algorithmus  „Integrated Cascaded Gaussian Mixture Regression“ am GIPSA-lab. Oben: Aussprache von [ata] unten: [uku]. © Thomas Hueber / GIPSA-Lab (CNRS/Université Grenoble Alpes / Grenoble INP).

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on xing
XING
Share on whatsapp
WhatsApp
Share on email
E-Mail
Share on print
Drucken

Ihre Meinung zum Artikel

Abonnieren
Benachrichtige mich bei
guest
0 Comments
Inline Feedbacks
View all comments

Andere Leser haben sich auch für die folgenden Artikel interessiert

Tragen Sie sich jetzt kostenlos und unverbindlich ein, um keinen Artikel mehr zu verpassen!

* Jederzeit kündbar

Entdecken Sie weitere Magazine

Schön, dass Sie sich auch für weitere Fachmagazine unseres Verlages interessieren.

Unsere Fachtitel beleuchten viele Aspekte der Digitalen Transformation entlang der Wertschöpfungskette und sprechen damit unterschiedliche Leserzielgruppen an.