Als Captain James T. Kirk auf der Enterprise «Computer, Selbstzerstörungssequenz aktivieren!» sagte, gehörte Spracherkennung noch ins Reich der Science-Fiction. Ein halbes Jahrhundert später ist klar: Star-Trek-Erfinder Gene Roddenberry erwies sich einmal mehr als technischer Visionär. Denn mit Computern zu sprechen, ist normal geworden. Mit den richtigen Komponenten lässt sich heute fast alles per Sprachbefehl steuern, von der Heizung über das Licht bis zu den Storen.
Von der Puppe zu Siri
Am Prinzip der Spracherkennung, das der Sprachsteuerung zugrunde liegt, wurde bereits in den 1960er-Jahren geforscht, allerdings weitgehend erfolglos. Erst zwanzig Jahre später kam die Entwicklung voran; 1984 stellte IBM ein Spracherkennungssystem vor, das 5000 englische Einzelwörter erkennen konnte. Weitere zehn Jahre später konnte die Puppe Julie einfache Worte verstehen und auf ihr Gegenüber individuell reagieren. 2011 implementierte Apple Siri auf seinen Smartphones. Der Sprachassistent verarbeitet heute mehrere Milliarden Anfragen pro Woche auf der ganzen Welt und hat von allen grossen Technikanbietern von Amazon bis Google Konkurrenz bekommen. Alle Sprachassistenten müssen dabei dieselbe Anfangshürde überwinden und das analoge Audiosignal, das den menschlichen Mund verlässt, in ein digitales Signal umwandeln, bevor es weiterverarbeitet werden kann – aber nur dann, wenn der Sprachassistent auch tatsächlich angesprochen wird, und nicht bei jedem beliebigen Alltagsgespräch in der Familie.
Das «Zauberwort»
Ein Sprachassistent muss allzeit bereit sein – er hört jedoch nicht alles mit, was gesprochen wird. «Google Assistant ist so konzipiert, dass der Sprachassistent im Standby-Modus bleibt, bis er aktiviert wird», erklärt Pia De Carli, Communications Manager bei Google Switzerland. In diesem Modus verarbeitet er kurze Audiosequenzen von wenigen Sekunden Länge, um das sogenannte Hotword «Hey Google» oder «Ok Google» nicht zu verpassen.
Dieser Befehl signalisiert dem Assistenten, dass seine Dienste verlangt werden. «Wird keine Aktivierung erkannt, werden diese Audiosequenzen weder an Google gesendet noch gespeichert», beruhigt Pia De Carli. Seit 2020 ist es möglich selbst einzustellen, wie empfindlich Google Assistant auf die Hotwords reagieren soll.
Sequenzieren und transkribieren
Erkennt der Sprachassistent eine Aktivierung, wird die Audiosequenz aufgezeichnet und zur weiteren Verarbeitung an die sichere Google Cloud gesendet. Dort findet die eigentliche Arbeit statt. Die Spracherkennungssoftware stellt das Audiosignal in einem Spektrogramm dar, mit dem die Tonsequenzen analysiert und in einen sinnvollen Text transkribiert werden. Was einfach klingt, ist eine hochkomplexe Aufgabe, denn es gilt nicht nur, verschiedene Sprachen, sondern auch verschiedene Ausdrucksweisen innerhalb einer Sprache zu bewältigen. «Wir Menschen bitten den Assistant auf mehr als 5000 verschiedene Arten den Wecker zu stellen», sagt Pia De Carli. Dank Natural Language Processing – der Verarbeitung natürlicher Sprache – und dem Einsatz künstlicher Intelligenz ist es möglich, diese Nuancen zu erfassen und korrekt zu verarbeiten. Google Assistant deckt zurzeit über 30 Sprachen ab, auch mehrsprachige Haushalte müssen ihre Sprachgewohnheiten oder die Spracheinstellungen von Google Assistant nicht anpassen, um zum Ziel zu gelangen. «Für viele Sprachen bieten wir ‹Voice Match› an, womit der Assistant die Stimme einer bestimmten Person erkennt und personalisierte Ergebnisse wie Kalendererinnerungen und Lieblingsplaylists liefert», so Pia De Carli. Wurde eine Information verlangt, wird eine Antwort im Textformat generiert, mit einem Sprachsynthesizer in ein Audiosignal umgewandelt und schliesslich vom Lautsprecher ausgegeben.
Von Cloud zu Cloud
Google-Analysen zufolge wird der Sprachassistent jedoch 40-mal häufiger angewiesen, etwas zu tun, als eine Information bereitzustellen. Oder genauer: Er soll veranlassen, dass etwas getan wird. Denn wenn es darum geht, das Licht zu löschen oder die Rollläden zu öffnen, wird der Sprachassistent zum Vermittler, der den Steuerbefehl weiter delegiert. «Dazu muss die Cloud des Sprachassistenten mit der Cloud des Produkt-Anbieters kompatibel sein, sprich sie müssen sich verständigen können, und zwar in allen angebotenen Sprachen», erklärt Astrid Schluttenhofer, Produktmanagerin und Teamleiterin Smart Home bei Somfy, dem führenden Hersteller von Antriebs- und Steuerungstechnik für Sonnenschutz- und Gebäudeöffnungssysteme. Dies geschieht mittels kleiner Programme, die im Fall von Alexa zum Beispiel Skills heissen. «Dabei gilt es in der Entwicklung einiges zu beachten, denn jeder Sprachassistent hat seine grösseren und kleineren Eigenheiten», so Schluttenhofer. «Apple besteht sogar darauf, dass alle Produkte, die kompatibel sein sollen – in unserem Fall die TaHoma-Box als Steuerzentrale des Gesamtsystems und alle Produkte, die damit angesprochen werden sollen –, von Apple zertifiziert werden müssen.» Die Somfy-Cloud wiederum hält Verbindung mit der TaHoma-Box. In diese muss sich der User einloggen, um die Smarthome-Elemente tatsächlich steuern zu können. «Die Login-Daten bleiben dabei bei uns», beruhigt die Teamleiterin, «die Sprachassistenten-Cloud erhält lediglich verschlüsselte Token, die den User identifizieren.»
Fast alles ist steuerbar
In der TaHoma-Box sind alle Geräte mit einer eindeutigen Bezeichnung hinterlegt, die mittels des Sprachassistenten steuerbar sind: Rollläden, Lichter, Dachfenster, Kameras, Temperatursensoren und vieles mehr. Die Palette kann fast beliebig erweitert werden, wenn später Produkte dazukommen. Durch die Verbindung zur Sprachassistenten-Cloud sind die Produkte dem Sprachassistenten ebenfalls bekannt. Wie die Sprachbefehle formuliert sein müssen, damit sie vom Assistenten erkannt und umgesetzt werden können, hängt vom jeweiligen System ab. «Apple ist in dieser Hinsicht schon recht offen, bei Alexa muss man die Befehle recht genau formulieren», weiss Astrid Schluttenhofer. An die Eigenheiten der jeweiligen Sprachassistenten gewöhnen sich User mit der Zeit – learning by doing! Steuerbefehle können an ein spezifisches Produkt im Haus, an alle Produkte in einem Raum oder auch an alle Produkte im Haus gerichtet werden: «Schliesse das Dachfenster», «Schliesse die Storen im Wohnzimmer» oder «Schliesse alle Storen». Je nach Assistent können auch Szenarien konfiguriert werden. So kann mit einem Befehl zum Beispiel ein Morgenszenario aktiviert werden, das automatisch einzelne Storen öffnet, das Licht in bestimmten Zimmern anmacht und vieles mehr. «Einfach gesagt, werden in einem Szenario mehrere Aktionen verknüpft und mit einem einzigen Sprachbefehl ausgelöst», sagt Astrid Schluttenhofer.
Auf die Verbindung kommt es an
So zuverlässig Sprachsteuerungssysteme bereits arbeiten, so sehr sind sie von funktionierenden Internetverbindungen beim User abhängig. «Der Router der Kunden spielt hier meist die entscheidende Rolle», weiss Astrid Schluttenhofer. «Hat dieser häufige Unterbrechungen, kann es mit der Sprachsteuerung schwierig werden, obwohl alles richtig installiert ist und das System eigentlich tadellos funktioniert.» Wenn also seitens des Providers Internetprobleme bestehen, kann man sein Smarthome nicht mehr bedienen? «Ohne die Cloud-Verbindung geht es nicht», sagt die Teamleiterin, «ohne Internet keine Sprachsteuerung.» Empfehlenswert ist es deshalb, als Backup Schalter, Wandsender, Handsender mit Funkverbindungen oder Ähnliches zu haben. «Nicht nur wegen eventueller Internetausfälle, sondern auch wenn einmal Besuch kommt, der von Smarthome-Steuerungen keine Ahnung hat.»
Vernachlässigtes Schweizerdeutsch
Schweizerdeutsch steht bei Sprachsteuerungen für gewöhnlich nicht auf der Liste der verfügbaren Sprachen. Und wenn Alexa, Siri und Co kein Schweizerdeutsch verstehen, sind auch die damit verbundenen Steuerzentralen wie TaHoma machtlos. Denn die Übersetzung von Sprache zu Befehl erfolgt ja auf Seiten der Assistenten. Natürlich könnte man sagen: Sprachsteuerungen müssen eigentlich kein Schweizerdeutsch verstehen können, wo doch alle Schweizerinnen und Schweizer Hochdeutsch, Französisch, Italienisch oder Englisch sprechen können. Doch erstens spricht der Mensch gern so, wie ihm der Schnabel gewachsen ist. Zweitens hätte eine schweizerdeutsche Spracherkennung noch weitere Anwendungsgebiete. «Stellen Sie sich vor, man könnte gesprochenes Schweizerdeutsch in geschriebenes Hochdeutsch umwandeln», sagt Manfred Vogel, Leiter Information Processing am Institut für Data Science FHNW. «Man könnte bei Parlamentsdiskussionen, Vorlesungen, Interviews, Untertitelungen und vielem mehr sehr viel Zeit einsparen.»
«Sprache ist das Interface der Zukunft»
An der Fachhochschule Nordwestschweiz (FHNW) versuchen Vogel und sein Team deshalb, eine allgemeine Spracherkennung für Schweizerdeutsch zu entwickeln. Der Ansatz kombiniert Spracherkennung und Übersetzung ins Hochdeutsche – eine enorme Herausforderung. «Mit den heutigen Methoden der Spracherkennung benötigt man dafür immens viele Daten als Grundlage», erklärt Manfred Vogel, «und das ist genau das Problem beim Schweizerdeutsch.» Denn es braucht nicht nur Audio-Aufnahmen von Schweizerdeutschen Texten, sondern auch hochdeutsche Transkriptionen davon. «Wir durften von verschiedenen Parlamentssitzungen aus den Kantonen Tonaufnahmen und korrespondierende Transkriptionen verwenden, um unsere Modelle zu trainieren», sagt Vogel. Doch das Material ist noch viel zu knapp, denn idealerweise braucht es 2000 Stunden Material aller Sprachregionen. Dennoch erreicht das aktuelle Modell bereits einen BLEU-Score von 70 – sehr frei interpretiert übersetzt es Testsätze von Schweizerdeutsch ins Hochdeutsche zu 70 Prozent so korrekt wie ein Mensch. «Die Sprache ist das Interface der Zukunft», sagt Manfred Vogel, «das gilt auch für einen kleinen Markt für die Schweiz.» Die Forschenden der FHNW ist in Kontakt mit diversen Anbietern, sodass es vielleicht wirklich bald einmal heisst: «Siri, mach mer en Kafi!»