Kennen Sie den? „Alexa, erzähl mal einen Witz“. „Was fährt ängstlich durch Berge und Täler? – Die Bammelbahn.“
In Sachen Humor ist noch deutlich Luft nach oben. Aber mal Spaß beiseite: Ob nun Alexa, Siri oder „Ok Google“ – Sprache wird für unseren Umgang mit Technik im Allgemeinen (und mit Medien im Besonderen) immer wichtiger. Auf Zuruf geht das Wohnzimmerlicht an. Siri liest uns die aktuellen News vor. Alexa spielt unsere Lieblingsmusik ab. Wir kommandieren auch unser Handy, ohne es in die Hand zu nehmen. Wir lassen uns von Cortana den Weg ins neueste Restaurant der Stadt beschreiben. Erfahren von Google, warum die Dinosaurier ausgestorben sind.
Gesprochener Sprache – englisch: „voice“ – gehört die Zukunft, Tippen und Wischen auf Smartphone-Displays war gestern. Deshalb werden wir uns in den nächsten Wochen und Monaten in einer Serie von Artikeln mit dem Thema „Voice Search“ beschäftigen. So werden wir unter anderem beleuchten, wie sprachgesteuerte Suche im Internet funktioniert, welche Optionen Marketer bei der Voice-Optimierung haben und welches Zukunftspotenzial in Voice Search steckt.
Doch dazu später mehr. Vorher wollen wir die Landschaft skizzieren, in der wir uns mit der Sprachsteuerung überhaupt bewegen.
Von Großrechnern und Militärprojekten
Dass elektronische Geräte menschliche Sprache erkennen und in Aktionen umsetzen, ist fast so alt wie die moderne Computertechnologie. Tatsächlich gab es bereits in den 1960er-Jahren erste Versuche, Maschinen menschliche Wörter beizubringen. Allerdings führten die Tests in den Laboren nicht weit, sodass die Entwicklungen eingestellt wurden.
Knapp 20 Jahre später präsentierte IBM ein erstes Spracherkennungsprogramm, das immerhin 5.000 Wörter identifizieren konnte. Eine technisch beeindruckende Lösung, weil das Programm auch Homophone (gleichlautende Worte mit unterschiedlicher Bedeutung, zum Beispiel „Bank“) durch eine Kontextanalyse unterscheiden konnte. Doch praktisch war das System nicht. Denn für die Spracherkennung war die Leistung eines Großrechners vonnöten, der mehrere Minuten rechnen musste, um ein Wort zuzuordnen.
In den folgenden Jahren trieb IBM das Projekt aber kontinuierlich voran. 1991 stellte der IT-Konzern TANGORA 4 vor, das 20.000 bis 30.000 Wörter erkennen konnte – sogar auf Deutsch. Allerdings war das System so geräuschempfindlich, das es nur in einem schalldichten Raum funktionierte. Zwei Jahre später folgte mit dem „IBM Personal Dictation System“ das erste Spracherkennungsprogramm, das sich tatsächlich für den Hausgebrauch eignete. Mit einem handelsüblichen PC (und 1.000 Dollar auf dem Konto) war nun jeder Schreibunwillige in der Lage, seine Briefe einfach zu diktieren.
Später lieferte sich IBM ein Wettrennen mit Microsoft, das ein vergleichbares Steuerungsprogramm entwickelte. Dieses ist seit 2007 (und zwar bis heute) Teil der Windows-Betriebssysteme. Weitere Anbieter stießen auf das Feld vor, etwa das Entwicklungsstudio Nuance mit Dragon (bis 2014 noch mit dem Zusatz „NaturallySpeaking“).
Die Software von Nuance bildete die Grundlage, auf der ein kleines Unternehmen namens Siri Inc. Spracherkennung und künstliche Intelligenz zusammenführen wollte. Bei Siri handelte es sich um eine Ausgründung des SRI International, eines unabhängigen Forschungsinstituts in Kalifornien – und ein Nachfolgeprojekt von CALO – ein Akronym für „Cognitive Assistant that Learns and Organizes“. Das Projekt wurde finanziert vom US-Militär und sollte einen lernfähigen Assistenten für Soldaten entwickeln (CALO war auch angelehnt an das lateinische „cato“ – der „Diener eines Soldaten“). 2011 brachte Siri die gleichnamige iPhone-App auf den Markt, wenige Wochen später kaufte Apple das ganze Unternehmen.
Im selben Jahr integrierte Google die Sprachsuche in den Chrome-Browser, ein Jahr später folgte Google Now. So richtig erfolgreich war das System nicht, daher gibt es seit 2016 (in Deutschland seit 2017) den Google Assistant.
Wo findet man überall Sprachsteuerung?
Mittlerweile gibt es eine ganze Reihe von Anwendungen, die Sprache erkennen können – zuerst auf dem Smartphone, mittlerweile auch auf anderen Geräten. Daher unterscheidet man zurzeit drei Bereiche, in denen Sprache bzw. Sprachsteuerung verwendet wird:
- Sprachfähige Digital-Assistenten: Apple Siri, Microsoft Cortana, Amazon Alexa, Google Assistant, Samsung Bixby und weitere
- Sprachfähige Lautsprecher/Geräte: Google Home/Mini, Amazon Echo/Dot/Show/…, Apple HomePod, Harman Kardon Invoke, Lenovo Smart Assistant, Alibaba Tmall Genie, Baidu Xiaodu und weitere
- Sprachfähige Anwendungen: WeMo, Philips Hue, Uber, … und Tausende andere „Skills“ (oder „Actions“ für Google-Nutzer)
Fasst man den Kreis noch weiter, findet man Sprachsteuerung in allen möglichen Geräten: in Wearables, im Auto, in Küchengeräten, sogar in der Toilette und vieles mehr.
Smart Speaker erobern die Haushalte
Der größte Wachstumsmarkt für sprachgesteuerte Geräte sind zurzeit die sprachfähigen Lautsprecher. Zu den „Smart Speakern“ gehören Amazon Echo, Google Home oder Apples HomePod. In diesem Jahr gingen allein im ersten Quartal rund 25,9 Millionen Geräte weltweit über die Ladentheken, ermittelte Strategy Analytics. Im Zeitraum von April bis Juni 2019 erhöhte sich der Absatz auf 30,3 Millionen Sprachassistenten, so die US-Marktforscher. Gegenüber dem Vorjahreszeitraum hat sich der Absatz nahezu verdoppelt.
Dominiert wird der Markt von den großen Playern: Amazon und Google im Westen, in China und Asien heißen die Gewinner Baidu, Alibaba und Xiaomi. Apple muss sich mit seinem intelligenten Lautsprecher HomePod mit einem sechsten Platz zufrieden geben. Die Zahlen des Analysedienstes Canalys weichen etwas ab, die Tendenz ist aber dieselbe.
Strategy Analytics rechnet damit, dass die Anbieter dieses Jahr insgesamt knapp 149 Millionen Smart Speaker absetzen. Ende 2019 dürfte die Anzahl der weltweit benutzten Geräte bei 260 Millionen liegen. In den USA kann man sie bereits in mehr als 30 Prozent aller Haushalte finden. Ein aktueller Report von eMarketers geht von 111,8 Millionen US-Amerikanern aus, die einen Sprachassistenten nutzen (Smartphone und Smart Speaker zusammengerechnet). Das entspricht knapp 40 Prozent aller Internetnutzer bzw. 34 Prozent der Gesamtbevölkerung.
Das Weihnachtsgeschäft 2018 war für die Hersteller wohl besonders lukrativ: Amazon jedenfalls gab bekannt, dass man bis dato weltweit insgesamt mehr als 100 Millionen Geräte verkauft habe, und im Januar 2019 war das Modell Echo Dot ausverkauft. Wie viele seit Anfang 2019 hinzugekommen sind, weiß man allerdings nicht genau. Canalys schätzt für das erste Quartal 2019 4,6 Millionen Geräte, im zweiten Quartal kamen 6,6 Millionen dazu. Macht allein im ersten Halbjahr 2019 etwa 11,6 Millionen Echos in den verschiedenen Versionen. Mit einem Anteil von rund 22 Prozent ist und bleibt Amazon Marktführer bei intelligenten Lautsprechern.
Wer nutzt wie welche Geräte?
Verkaufszahlen sind das eine. Das andere sind Fragen, die Marketingverantwortliche wohl noch mehr interessieren: Welche Altersgruppen interessieren sich besonders für die neue Technologie? Wie verwenden sie die Geräte im Alltag?
Erste Antworten darauf liefert die Postbank Digitalstudie 2019. Sie ergab, dass 32 Prozent der Deutschen digitale Sprachassistenten wie Siri oder den Google Assistant benutzen. Gegenüber dem Vorjahr ist dies ein Anstieg um 12 Prozent. Gerade die jüngeren Deutschen – bei der Postbank sind das alle unter 40 Jahren – reden gern mit ihren virtuellen Alltagshelfern, 48 Prozent von ihnen sind regelmäßige Nutzer. Die am häufigsten genutzten Assistenten sind:
- Google Assistant (19 %)
- Siri (15 %)
- Amazon Echo (8 %)
In der Untergruppe der Digital Natives, gemeint sind hier die jungen Erwachsenen, liegt dagegen Apple ganz vorn. Mit 28 Prozent kommt Siri auf Platz 1, der Google Assistant liegt mit 27 Prozent knapp dahinter.
Interessant ist auch, dass die Sprachassistenten am häufigsten von Familien genutzt werden: In 3-Personen-Haushalten liegt die Verbreitung der Smart Speaker bei 39 Prozent, in 4-Personen-Haushalten sogar bei 52 Prozent. Singles nutzen dagegen Siri, Alexa und Co. seltener: Nur 20 Prozent unterhalten sich mit dem digitalen Mitbewohner.
Ein kleines Fazit zum Beginn
Sprachgesteuerte Geräte gehören zu den spannendsten und innovativsten Entwicklungen unserer Tage. Interessant: Die Anfänge reichen weiter zurück als bis ins Jahr 2011, als Siri und die Sprachsuche von Google auf den Markt kamen. Interessanter: Die Sprachsteuerung ist längst nicht mehr auf die Ökosphäre eines Smartphones beschränkt, im Prinzip lässt sich jedes Gerät per Sprache steuern. Digitale Sprachassistenten breiten sich aus, weil sie das Leben ihrer Nutzer erleichtern und jede Menge Annehmlichkeiten bieten. Kein Tippen, kein Wischen – es reicht, einfach draufloszureden. Und die Geräte sind familienfreundlich – vielleicht ist das auch der Grund, warum sich Alexas Humor auf Grundschulniveau bewegt:
„Alexa, erzähl mir noch einen Witz.“ „Fritzchen, warum sind deine Hausaufgaben plötzlich alle so gut? – Weil mein Vater im Urlaub ist, Herr Lehrer.“
Wie gesagt, zumindest beim Humor ist noch viel, sehr viel Luft nach oben.
Mehr zum Thema im nächsten Teil unserer Serie.
Photos by yangjiepsy01 from Pixabay, Bence Boros, Andres Urena and Przemyslaw Marczynski from Unsplash.