Text-to-speech

Ob großes Nachrichtenmagazin oder privater Weblog: Viele Website-Anbieter sind mittlerweile dazu übergegangen, ihre Artikel nicht nur in Textform zur Verfügung zu stellen. Besucher haben nun auch die Möglichkeit, sich die Texte vorlesen zu lassen.

Welche Vorteile bietet die Text-to-speech-Funktion, kurz als TTS bezeichnet? Und welche Herausforderungen muss die Technologie bewältigen?

So funktioniert die Text-to-speech-Technologie

Text-to-speech bezeichnet eine Funktion, die aus einer Texteingabe heraus mithilfe von technischen Mitteln gesprochene Sprache erzeugt. Eine Vorlesefunktion für News-Artikel ist nur eine von vielen Anwendungsmöglichkeiten von TTS. Die Technologie kommt zum Beispiel auch bei Bahnhofsansagen oder beim Gespräch mit dem Smartphone-Assistenten zum Einsatz.

Grundsätzlich lassen sich dabei zwei Methoden zur Spracherzeugung unterscheiden: die Sprachwiedergabe und die Sprachsynthese.

  • Die Sprachwiedergabe basiert auf zuvor eingesprochenen Aufnahmen, die mittels Signalmodellierung an den jeweiligen Kontext angepasst werden.
  • Die Sprachsynthese wandelt Texteingaben ohne Audiosamples in akustische Sprachausgaben um.

Moderne TTS-Systeme nutzen vorwiegend die Methode der Signalmodellierung. Der vorzulesende Text wird dafür zunächst analysiert und in seine einzelnen Phoneme zerlegt (Natural Language Processing, NLP) und anschließend in ein akustisches Sprachsignal umgewandelt (Digital Signal Processing, DSP).

Welche Vorteile bietet TTS?

Welche Vorteile bietet es nun, wenn Website-Besucher Texte nicht nur lesen, sondern auch hören können?

1. Erweiterte Barrierefreiheit

Eine TTS-Funktion erhöht die Zugänglichkeit von Texten. Weltweit gibt es Millionen von Menschen mit Sehbehinderungen. Allein in Deutschland können 7,5 Millionen Menschen nicht oder nur sehr schwer lesen. Etwa zehn bis 20 Prozent der Bevölkerung sind von Legasthenie betroffen und können Texte ebenfalls nur schwer verarbeiten. Eine TTS-Funktion stellt für diese Personengruppen eine große Entlastung dar.

2. Zeitersparnis

Zeit ist im hektischen Alltag ein knappes Gut. TTS ermöglicht es Website-Besuchern, sich interessante Texte anzuhören, während sie gerade mit anderen Dingen beschäftigt sind. Sie können sich die Artikel vorlesen lassen, während sie etwa die Hausarbeit erledigen oder das tägliche Fitnesstraining absolvieren. Auch unterwegs im Auto lassen sich Texte dank TTS einfach konsumieren.

3. Attraktiv für Podcast- und Hörbuch-Fans

Schließlich gibt es noch Personen, die es schlicht vorziehen, Informationen zu hören statt sie zu lesen. Wer gerne Podcasts hört oder lieber einem Hörbuch lauscht, statt mit dem Buch auf der Couch zu sitzen, lässt sich häufig auch  Artikel vorlesen.

Herausforderungen bei der Text-to-speech-Wiedergabe

Wer schon einmal TTS-Systeme genutzt hat, weiß: Komplett natürlich klingt die Sprachausgabe nicht. Menschliche Sprache ist äußerst komplex und was uns ganz intuitiv gelingt, müssen Maschinen erst mühselig lernen. So müssen sie zum Beispiel Homographen identifizieren können, identisch geschriebene Wörter mit unterschiedlichen Bedeutungen.

Eine weitere Schwierigkeit ergibt sich bei der Aussprache von Zahlwerten. Die Ziffernfolge 1989 kann etwa für die Zahl Eintausendneunhundertneunundachtzig stehen, für die Jahreszahl Neunzehnhundertneunundachtzig oder für die Nummernfolge eins – neun – acht – neun.

Moderne TTS-Systeme erkennen anhand des Kontextes, wie sie bestimmte Wörter aussprechen müssen. Sie analysieren zum Beispiel benachbarte Wörter, um die korrekte Bedeutung von Begriffen herauszufinden. Die richtige Aussprache eines Wortes lässt sich dann anhand zweier Ansätze ermitteln, die meist miteinander kombiniert werden:

  • Wörterbuchbasierter Ansatz: Die betreffenden Wörter werden in einem Wörterbuch abgefragt. Diese Methode funktioniert vor allem bei bekannten Wörtern sehr schnell und zuverlässig, liefert aber weniger gute Ergebnisse bei unbekannten, seltenen Wörtern.
  • Regelbasierter Ansatz: Ermittelt die Aussprache anhand von Ausspracheregeln. Diese Methode funktioniert auch bei unbekannten Wörtern.

Menschliche Emotionen können TTS-Systeme noch nicht glaubhaft nachahmen. Auch auf diesem Gebiet macht die Technik allerdings Fortschritte, sodass sich die maschinelle Sprachwiedergabe immer mehr der natürlichen Sprache angleicht.

Ausblick: Technische Entwicklung erschließt weitere Anwendungsbereiche von TTS

Text-to-speech ist ein hilfreiches Add-On für mehr Barrierefreiheit, aber auch ein echter Game-Changer für die Art und Weise, wie Nutzer mit Online-Inhalten umgehen. TTS-Technologie hat in den vergangenen Jahren große Fortschritte gemacht. Es steht zu erwarten, dass sich die synthetisch erzeugen Stimmen in den kommenden Jahren weiter verbessern und noch natürlicher klingen.

Damit könnten weitere Einsatzgebiete für TTS-Systeme erschlossen werden, mit denen heute bereits experimentiert wird, z.B. im Rahmen von Videospielen, Hörbüchern oder Audio-Lehrmaterialien.

Urheber des Titelbildes: rawpixel/ 123RF Standard-Bild