Wie sprechen Roboter eigentlich?

Roboter, welche in Kontakt zu Menschen stehen, können sehr unterschiedlich aussehen und in der Regel auch sprechen. Ob und wie das die Nutzenden beeinflusst, ist Teil einer der Forschungsfragen im Projekt RuhrBots. Zur Interaktion mit sozialen Robotern gehören also neben visuellen Komponenten auch sprachliche Funktionen zur Gewährleistung einer Barrierefreiheit. 

 

Das Projektteam der Hochschule Niederrhein (HSNR) unter der Leitung von Prof. Dr. Edwin Naroska beschäftigt sich insbesondere mit der Robotersprache und welche Möglichkeiten zur Sprachausgabe bei  Robotern bestehen und geeignet sind, eine barrierefreie diskriminierungsfreie Nutzung zu ermöglichen. Im Fokus stehen sogenannte Text-to-Speech-Technologien (TTS). Diese bieten bei Robotern die Möglichkeit, geschriebenen Text in gesprochene Sprache umzuwandeln. Dadurch können Benutzer:innen beispielsweise Texte in verschiedenen Anwendungen und Plattformen, also auch Robotern, vorlesen lassen, was zu einer verbesserten Barrierefreiheit, multilingualen Unterstützung und personalisierten Hörerlebnissen führt.

 

Text-to-Speech (TTS) Systeme haben eine lange Geschichte, die bis in die 1950er Jahre zurückreicht. In ihren Anfangsjahren wurden sie hauptsächlich für militärische Zwecke entwickelt, um Informationen in Sprachform zu übertragen.

 

Einen erster Grundstein für spätere Entwicklungen auf dem Gebiet der Sprachsynthese wurde aber bereits im Jahr 1877 von Thomas Edison gelegt. Er entwickelte eins der ersten bekannten Sprachausgabegeräte namens „Phonograph“, das in der Lage war Töne aufzuzeichnen und wiederzugeben. In den folgenden Jahrzehnten wurden weitere Fortschritte gemacht, um die Qualität und Vielseitigkeit der Sprachausgabe zu verbessern. So wurde das erste bekannte TTS-System in den späten 1950er Jahren entwickelt. Das sogenannte „IBM Shoebox“ System, das von Forschern bei IBM erstellt wurde, war eines der ersten elektronischen Sprachsynthesesysteme. Es konnte einfache Wörter und Sätze generieren, indem es vorab aufgezeichnete Phoneme (Sprachbausteine) abspielte. Obwohl das IBM Shoebox System einen wichtigen Meilenstein darstellte, war die Qualität der erzeugten Sprache noch sehr begrenzt und klang roboterhaft. In den folgenden Jahrzehnten wurden jedoch erhebliche Fortschritte erzielt, um die Klangqualität und Natürlichkeit von TTS-Systemen zu verbessern.

 

In den 1970er Jahren begannen Forscher, sich intensiver mit der Entwicklung von TTS-Systemen zu beschäftigen. Zu dieser Zeit wurden regelbasierte Ansätze verwendet, bei denen linguistische Regeln und phonetische Modelle verwendet wurden, um Text in Sprache umzuwandeln. Diese Systeme waren jedoch oft roboterhaft und klangen unnatürlich.

 

Mit dem Fortschritt der Technologie und der Verfügbarkeit von leistungsfähigeren Computern in den 1980er Jahren wurden statistische Ansätze zur Verbesserung der TTS-Systeme eingeführt. Diese basierten auf großen Datenmengen von aufgezeichneten menschlichen Stimmen und verwendeten Algorithmen wie Hidden Markov Models (HMMs) zur Generierung von Sprache.

 

In darauffolgenden Jahren sind TTS-Systeme dank des Einsatzes von Deep Learning-Algorithmen noch natürlicher geworden. Durch die Verwendung von neuronalen Netzwerken können sie menschenähnliche Stimmen erzeugen und Emotionen besser vermitteln.

 

Heutzutage werden TTS-Systeme in verschiedenen Anwendungen eingesetzt, darunter Sprachassistenten, Hörbücher, Navigationssysteme und vieles mehr. Die Qualität der generierten Sprache hat sich erheblich verbessert, sodass sie oft kaum von einer menschlichen Stimme zu unterscheiden ist.

 

Zur Umsetzung von TTS  gibt es verschiedene Ansätze und Methoden, darunter regelbasierte Systeme oder neuronale Netzwerke. Diese Methoden beinhalten vergleichbare Schritte, um geschriebenen Text in gesprochene Sprache umzuwandeln. Folgend ist eine vereinfachte Erklärung des Prozesses beschrieben:

  1. Textanalyse: Zunächst wird der eingegebene Text analysiert, um Informationen wie Satzstruktur, Satzzeichen und Betonungsmuster zu extrahieren.
  2. Linguistische Verarbeitung: Der Text wird sprachlich verarbeitet, um die richtige Aussprache von Wörtern, Phrasen und Sätzen zu bestimmen. Dies beinhaltet die Anwendung von Grammatikregeln, Phonetik und Sprachmodellen.
  3. Akustische Modellierung: Basierend auf den linguistischen Informationen wird ein akustisches Modell erstellt. Dieses Modell enthält Klänge, Betonungen und Intonationen, die für die gewünschte Sprache und Stimme charakteristisch sind.
  4. Synthese: Der eigentliche Syntheseprozess beginnt, bei dem die akustischen Merkmale des Textes in Sprachsignale umgewandelt werden. Dies kann durch die Kombination von vorab aufgezeichneten Sprachsegmenten oder durch die Verwendung von neuronalen Netzwerken erfolgen, die auf großen Sprachdatensätzen trainiert wurden.
  5. Post-Processing: Nach der Synthese können noch weitere Schritte wie Klangverbesserung, Rauschunterdrückung oder Tonhöhenanpassung durchgeführt werden, um die Qualität und Natürlichkeit der generierten Sprache zu verbessern.

Dabei ist zu beachten, dass TTS-Systeme kontinuierlich weiterentwickelt werden, um die Klangqualität und die Fähigkeit zur natürlichen Sprachwiedergabe zu verbessern. 

Die bekanntesten verfügbaren Text-To-Speech Systeme sind:

  • Google Text-to-Speech: Ein TTS-System von Google, das auf Android-Geräten weit verbreitet ist.
  • Amazon Polly: Ein Cloud-basiertes TTS-System von Amazon Web Services (AWS), das in verschiedenen Anwendungen und Plattformen verwendet werden kann.
  • Microsoft Azure Speech Service: Ein TTS-System von Microsoft Azure, das Entwickelnden ermöglicht, Sprachfunktionen in ihre Anwendungen zu integrieren.
  • IBM Watson Text to Speech: Ein TTS-System von IBM Watson, das natürliche Stimmen für verschiedene Anwendungsfälle bietet.
  • Mozilla DeepSpeech: Ein Open-Source-TTS-System, das von Mozilla entwickelt wurde und auf maschinellem Lernen basiert.
  • Tacotron 2: Ein fortschrittliches TTS-Modell, das von Google entwickelt wurde und natürlichere Sprachausgabe erzeugt.

Insgesamt bietet die Nutzung von Text-to-Speech (TTS) Modulen mehrere Vorteile:

  • Barrierefreiheit: TTS ermöglicht es Menschen mit Sehbehinderungen oder Leseschwierigkeiten, geschriebenen Text in gesprochene Sprache umzuwandeln und so Informationen zugänglicher zu machen.
  • Multilinguale Unterstützung: TTS-Systeme können Text in verschiedenen Sprachen und Dialekten vorlesen, was die Kommunikation über Sprachgrenzen hinweg erleichtert.
  • Personalisierung: TTS-Module bieten oft die Möglichkeit, die Stimme, Geschwindigkeit und Betonung anzupassen, um den individuellen Vorlieben der Benutzenden gerecht zu werden.
  • Automatisierte Sprachausgabe: TTS kann in Anwendungen und Systemen integriert werden, um automatisch Text in Sprache umzuwandeln. Dies ist besonders nützlich für Voice-Assistants, Navigationssysteme, Hörbücher und vieles mehr.
  • Kosteneffizienz: Durch den Einsatz von TTS können Unternehmen Kosten für professionelle Sprecher und Sprecherinnen oder Aufnahmestudios einsparen, da der Text automatisch in Sprache umgewandelt werden kann.
  • Skalierbarkeit: TTS-Systeme können große Mengen an Text schnell und effizient verarbeiten, was sie ideal für Anwendungen macht, die eine hohe Skalierbarkeit erfordern.

Diese Vorteile machen TTS-Module zu einer wertvollen Technologie für verschiedene Anwendungsbereiche wie Bildung, Unterhaltung, Barrierefreiheit und Kommunikation. Nichtsdestotrotz gibt es neben den viele Vorteile auch einige potenzielle Nachteile:

  • Natürlichkeit der Stimme: Obwohl TTS-Systeme immer besser werden, können sie manchmal noch unnatürlich klingen. Die Betonung, Intonation und Aussprache können sich von einer menschlichen Stimme unterscheiden, was zu einer weniger authentischen Hörerfahrung führen kann.
  • Sprachliche Nuancen: TTS-Systeme haben möglicherweise Schwierigkeiten, bestimmte sprachliche Nuancen oder Kontexte korrekt zu interpretieren. Dies kann zu Fehlern bei der Aussprache von Wörtern oder Sätzen führen und die Bedeutung verfälschen.
  • Begrenzte Emotionen: TTS-Module können Schwierigkeiten haben, Emotionen in der Sprachausgabe angemessen auszudrücken. Feinere emotionale Nuancen können oft nicht richtig wiedergegeben werden, was zu einer eingeschränkten Ausdrucksfähigkeit führt.
  • Akzent- und Dialektprobleme: TTS-Systeme können Schwierigkeiten haben, bestimmte Akzente oder Dialekte korrekt wiederzugeben. Dies kann dazu führen, dass Betroffene sich nicht gut mit der generierten Sprache identifizieren können.
  • Einschränkungen bei der Anpassung: Obwohl viele TTS-Module Anpassungsmöglichkeiten bieten, sind diese oft begrenzt. Es kann schwierig sein, eine Stimme genau nach den individuellen Präferenzen anzupassen.
  • Datenschutz und Sicherheit: Bei der Verwendung von Cloud-basierten TTS-Systemen müssen Nutzende möglicherweise ihre Texte an Drittanbieter senden, was Bedenken hinsichtlich Datenschutz und Sicherheit aufwerfen kann.

Es ist wichtig, diese potenziellen Nachteile zu berücksichtigen und die Verwendung von TTS-Modulen entsprechend anzupassen, um die bestmögliche Hörerfahrung zu gewährleisten.

Ziel der Hochschule Niederrhein und des RuhrBots Team ist es, eine Lösung für die Sprachausgabe für die sozialen Roboter zu konzipieren, welche die Barrierefreiheit und Diskriminierungsfreiheit für die Nutzenden sicher stellt und damit auch die Akzeptanz der robotischen Systeme erhöht.