I, digital assistant

Karl Kratz
Karl Kratz

Karl Kratz liebt und lebt feines Online-Marketing seit 1996. Er ist Autor diverser Online-Marketing-Publikationen (Welcome to the System, Haifischbecken Internet Marketing, Landingpage SEO) und betreibt die Online-Marketing-Plattform karlsCORE public.

Mehr von diesem AutorArtikel als PDF laden

Filme wie „Her“ (2013) und „Ex Machina“ (2015) zogen Millionen von Menschen in ihren Bann. Die fiktive Kommunikation zwischen Mensch und künstlicher Intelligenz erzeugte intensive, aktuell noch nicht erfüllbare Sehnsüchte. Doch wo stehen wir heute überhaupt?

Wie ist es wohl, mit einer ausgereiften künstlichen Intelligenz zu sprechen? Sich über die Liebe, den Sinn des Lebens, das Universum und die letzten Fußballergebnisse mit einem Roboter auszutauschen? Zugriff auf unendliches Wissen und Prognosen für die Zukunft zu erlangen?

Und wie fühlt es sich an, wenn Google Maps mal wieder eine ungünstige Verkehrsroute wählt? Oder SIRI das gewünschte Lieblingsalbum nicht versteht? Wenn Alexa die falschen Kontaktlinsen bestellt? Und Microsoft Cortana das „hiesige“ in Kinoprogramm nicht kapiert? Dann sind wir zuerst belustigt. Dann genervt. Dann verärgert. Dann wechseln wir zurück zum Browser und der Tastatur.

Szenenwechsel: Ein Kleinkind krabbelt auf allen Vieren über die grüne Wiese im Garten. Auf einmal macht es einen Versuch, sich auf die Beine zu stellen. Das Gras kitzelt die kleinen Zehen, das Kind richtet sich etwas auf, steht fast ... und fällt wieder mit einem lauten „Plumps“ auf die dicke Windel. So geht das über mehrere Stunden.

Keiner der anwesenden Erwachsenen würde auf die Idee kommen und zu dem Kind sagen: „Bleib liegen – Du probierst das schon seit mehreren Tagen und man sieht NULL Fortschritt! Du wirst nie laufen lernen!“ Im Gegenteil: Wir freuen uns über jeden neuen Versuch, feuern das Kind an, loben es und sind über selbst kleinste Veränderungen glücklich.

Wer aufmerksam das Thema „Sprachsuche“ und die damit verbundene Haltung in einem Teil der deutschen (Online-)Marketing-Szene betrachtet, stellt sich recht schnell die Frage: „Zu welchem Zeitpunkt haben die Menschen diese ursprüngliche Freude am Scheitern verloren?“ Nur zu oft sind Stimmen hörbar: „Sprachsuche wird sich nie durchsetzen!“, „Niemand kauft Kontaktlinsen oder eine Eck-Couch über Sprachsuche!“, oder schlicht: „Ich benutze keine Sprachsuche – ich spreche doch nicht mit meinem Handy.“

Die Geschichte des digitalen Zeitalters, des Internets und insbesondere des WWW ist voll von dieser Einstellung „das Kind wird nie laufen lernen“: Während der „Homo Keywordus“ um 1990 noch vor einem stationären Personal Computer mit Modem und 15-Zoll-Röhrenmonitor saß, liefen gerade mal 17 Jahre später Menschen mit den ersten brauchbaren Smartphones auf der Welt herum – das war im Jahr 2007. Das „mobile Web“ stand auf der Agenda.

Wer 2010 auf Online-Marketing-Konferenzen Vorträge zum Thema „Mobile Websites“ besuchte, stand häufig in fast leeren Räumen, während die Linkbuilding-Slots überlaufen waren. Der allgemeine Tenor war unmissverständlich: „SEO“ wird noch lange so weiter funktionieren, wie es heute funktioniert.

2015 gab es dann erstmals mehr mobile als stationäre Suchen: Das Smartphone war allgegenwärtig.

Seit ca. 2013 lässt sich ein ähnliches Muster feststellen – zum Beispiel, wenn gestandene Online-Marketing-Experten auf Konferenzen erklären: „Menschen werden nicht sprachbasiert suchen – niemand spricht mit seinem Handy und das wird sich noch lange Zeit nicht ändern!“

Steve Ballmer äußerte sich als CEO von Microsoft 2007 in einem Interview zum iPhone: „That is the most expensive phone in the world and it doesn’t appeal to business customers because it doesn’t have a keyboard which makes it not a very good email machine.“ Heute würde kaum ein Online-Marketer ein Smartphone daran bemessen wollen, ob es eine physische Tastatur besitzt.

Sprachsuche und digitale Assistenten werden die konventionelle Suche für immer verändern

Bis vor Kurzem war Sprachsuche in der Tat noch eine Neuigkeit. Und diese Neuigkeit wurde innerhalb kürzester Zeit eine Notwendigkeit. Sprachsuche wird nicht nur täglich populärer – Sprachsuche wird die konventionelle Suche für immer verändern. Zunächst einmal ist die Sprachsuche die aktuell am schnellsten wachsende Art der Suche.

Hierzu gibt es seitens Google einige interessante Studien – ich selbst möchte einen simplen Trend, wenn auch mit einem Augenzwinkern, heranziehen:

Google bestätigt, dass 20 % der Suchen in der mobilen App und auf Android-Geräten Sprachsuchen sind. Und laut LSA insider haben 60 % der Mobilgerätenutzer im letzten Jahr mit der Nutzung von Sprachsuche-Assistenten begonnen.

Ein wesentlicher Grund für die immer größer werdende Akzeptanz liegt sicher in der radikal gesunkenen Fehlerrate bei der Spracherkennung: Lag diese 2014 noch bei ärgerlichen 20–25 %, erkennen SIRI & Co. seit 2016 nur noch ca. 8 % der Spracheingaben falsch. Tendenz: stark sinkend. Selbst einfache Dialekte oder eine undeutliche Ausdrucksweise bzw. Umgebungsgeräusche stellen mittlerweile fast kein Problem mehr dar.

Ein weiterer Grund für eine immer weitere Verbreitung ist der Umstand, dass immer mehr Geräte „mobil“ und „vernetzbar“ sind: Uhren, Autos, Armbänder, Smartphones, physische digitale Assistenten, Haushaltsgeräte, Kleidung und vieles mehr – und der natürlichste Zugang zu all diesen „unbekannten“ Geräten ist unsere Sprache.

Während ein täglich schrumpfender Teil von Menschen der Sprachsuche abschwört, informiert sich der restliche Teil der Benutzer mithilfe digitaler Assistenten und Sprachsuche über Entertainment (Filme, Musik, Kino), besorgt sich Informationen über (lokale) Unternehmen, führt einfache Transaktionen durch oder kommuniziert mit anderen Menschen oder Bots.

Die Entwicklung von „Homo Keywordus“ zum „Homo Search-On-The-Go“ scheint unaufhaltsam. Menschen, die „das mit der Sprachsuche“ vor zwei Jahren mal ausprobierten und enttäuscht wurden, sollten heute einen weiteren Versuch wagen: Das Kind lernt gerade erst laufen – man sollte ihm eine Chance geben.

Digitalisierung des Schlachtfelds

Auf dem Markt der Anbieter für Sprachsuchsysteme und digitale Assistenten tobt bereits seit Jahren ein stiller Krieg. Es ist kein Krieg um die beste Funktionalität für digitale Assistenten. Es ist ein Krieg um die absolute Vorherrschaft, um den direktesten Kontakt zum Benutzer: Es geht um die strategische Frage, wer die mächtige „Gatekeeper-Rolle“ übernimmt.

Menschen suchen Lösungen nicht nur im Web, sondern auch in Apps oder über irgendein bevorzugtes oder gerade verfügbares Gerät. Wer dieses Gerät, sein Betriebssystem und die Schnittstelle zum Menschen betreibt, ist der „Gatekeeper“. Dieser „Gatekeeper“ ist der Eingang zum digitalen Spielfeld – idealerweise der einzige Eingang. Die Mitbewerber müssen draußen bleiben oder haben nur einen sehr erschwerten Zugang.

Die Website Google.com verliert Tag für Tag immer mehr Einfluss – Google hingegen nicht. Weshalb? Die Strategen bei der Suchmaschinenfirma aus Mountain View sind sich wohl sehr genau bewusst, was dieser Umschwung für ihr Unternehmen bedeutet.

Google nutzt deshalb Android, Android Auto, Apps, Chrome, Drive, Gmail, Fiber, Google Maps und viele andere Technologien, um zu verstehen, was und wie wir suchen. Diese vielschichtige Betrachtung des Themas „Suche“ erzeugt einen gigantischen Wettbewerbsvorteil für Google. Apple hingegen hat sich zum Beispiel bereits die Dominanz auf dem Kartensektor durch ein paar ungeschickte Taktiken verbaut – somit ist Google Maps der Quasi-Standard für Standortermittlungen geworden. Die präzise Bestimmung von Standorten ist für die Kontexterfassung bei der Sprachsuche ein wichtiger Grundpfeiler und Google hat einen wesentlichen Teil dieser Datenhoheit abgesteckt.

Microsoft versucht, den Markt über die Kopplung von Cortana und Windows 10 zu dominieren. Das ist ein Marktanteil, der auf keinen Fall zu unterschätzen ist. Apple integriert seinen Assistenten in Form von SIRI auf dem iPhone und Mac sowie in Apple Car Play. Facebook versucht, seinen digitalen Assistenten Facebook M so aufzubauen, dass kein Facebook-Benutzer die Plattform jemals wieder verlassen müsste. Amazon greift mit Echo nach seiner kaufkräftigen Klientel und versucht diese so noch enger an sich zu binden. Völlig unberührt von diesem bunten Treiben investiert IBM weiter in Watson und verfügt wohl über eine der fortschrittlichsten Technologien auf unserem Planeten. Neben diesen großen Spielfiguren auf dem Spielfeld gibt es noch unzählige weitere wie zum Beispiel VIV (Samsung) oder Hound (Hound).

In der ganz alten Welt waren es die Telekommunikationsunternehmen, die als Gatekeeper wie AOL oder T-Online die Besucherströme zu den Online-Diensten lenkten. In der aktuellen Welt werden es die Betreiber der Geräte und ihrer Betriebssysteme sein, die den wesentlichsten Einfluss auf die Steuerung der Besucherströme haben.

Es bleibt fraglich, ob ein Benutzer überhaupt viele verschiedene digitale Assistenten für unterschiedliche Tätigkeiten benutzen möchte oder sich eher einen einzigen Assistenten für alle Tätigkeiten wünscht. In der Geschichte des WWW entwickelten sich im Lauf der Zeit „Meta-Suchmaschinen“, die die Vielzahl an kleinen Spezial-Suchmaschinen abfragten und die Resultate zusammenfassten. Wer heute einen Blick in die Zukunft wagt, könnte sich vorstellen, dass so etwas auf der Ebene der digitalen Assistenten ebenfalls stattfinden könnte – allerdings ist derzeit kein aussichtsreicher Kandidat am Horizont sichtbar.

Optimierung im Blindflug

Für einen Online-Marketing-Verantwortlichen kann dieses Zeitalter der Sprachsuche ein echter Alptraum sein: Auf der einen Seite sind so gut wie überhaupt keine Daten verfügbar – die Analyse- und Webtracking-Lösungen schweigen sich weitgehend aus.

Auf der anderen Seite entgleitet Anbietern immer mehr die Kontrolle, welche Informationen Gatekeeper ausgeben, ohne je einen einzigen Besucher auf das Ziel-Asset des Betreibers zu schicken: Menschen stellen eine Frage und das System des Gatekeepers beantwortet diese auf der Basis der zur Verfügung stehenden Informationen. Informationen, die mit großer Wahrscheinlichkeit ein Anbieter als Systemteilnehmer zur Verfügung gestellt hat.

Google hat zwar angekündigt, zum Thema Sprachsuche eine Lösung in die Google Search Console zu integrieren. Wann diese Lösung kommen soll und wie sie aussieht, ist allerdings derzeit unklar.

Was, wer, wie, wann, wo?

Sprachsuche bringt natürlich nicht nur einen analysetechnischen Alptraum mit sich, sondern auch einige weitere Herausforderungen. Gesprochene Suchanfragen verwenden tendenziell eine natürliche Sprache mit deutlich mehr Worten als eine getippte Suchanfrage.

Wir tippen nicht, wie wir sprechen – und umgekehrt: So wird aus einem konventionellen „Wetter Berlin“ im Suchschlitz ein gesprochenes „Wie wird das Wetter heute in Berlin?“ oder sogar: „Brauche ich einen Regenschirm?“

Gesprochene Suchanfragen enthalten deutlich mehr Nuancen in der Verwendung von Begrifflichkeiten, die wiederum viel mehr über die Absichten eines Suchenden aussagen. Smarte Online-Marketing-Verantwortliche sehen darin weniger eine Bedrohung, sondern eher eine Chance, deutlich detaillierter auf die jeweilige Bedarfsgruppe einzugehen.

Gleichzeitig bedienen digitale Assistenten und die Sprachsuche die Bequemlichkeit von Suchenden. Oftmals sind bei der Sprachsuche gegenüber der konventionellen Vorgehensweise deutlich weniger Einzelschritte pro Transaktion erforderlich:

Wer zum Beispiel einem Freund Geld via Paypal überweisen möchte, öffnet einen Browser, ruft Paypal auf, meldet sich an, sucht im Menü nach der richtigen Option, gibt einen Betrag und einen Empfänger ein und klickt auf „Senden“. Alternativ kann er auch sagen: „Hey Siri, überweise Mario 10 Euro.“ Der Rest wird vom digitalen Assistenten erledigt.

Erweiterung der Suchsysteme ... und ihre Grenzen

Je nach Suchsystem und Integration von Drittanbietern kann auch die Intensität der Transaktion variieren: Sowohl die Frage „Wo kann ich Pizza bestellen?“ als auch die konkrete Kaufhandlung „Bestelle mir eine Pizza Salami mittlerer Größe!“ ist bereits heute verfügbar. Es liegt jetzt an allen drei Parteien, das Beste aus dieser Chance zu machen:

  1. Der Anbieter des Suchsystems/digitalen Assistenten, der möglichst gute Schnittstellen für Drittanbieter bereitstellt.
  2. Der Drittanbieter, der möglichst gut Suchanfragen von Benutzern voraussieht und Lösungen hierfür bereitstellt.
  3. Der Benutzer, der dem Drittanbieter bzw. dem Suchsystemanbieter jeweils ein aktives Feedback über die Erwartungskonformität gibt, um den Verbesserungsprozess zu beschleunigen.

Leider hat nicht jeder Suchsystembetreiber aktuell eine gut durchdachte Strategie für die systematische Integration von Drittanbietern.

Die Logik der Alexa-Skills-Plattform macht derzeit einen recht unausgereiften und wenig durchdachten Eindruck:

Die Erstellung, das Testen und die Bereitstellung sogenannter „Alexa Skills“ sind für einen gut ausgebildeten Entwickler durchaus gut zu bewältigen. Die innere Anwendungslogik muss jedoch auf den Zugriff von Kernfunktionalitäten der künstlichen Intelligenz von Echo verzichten. So müssen beispielsweise alle möglichen und erdenkbaren Fragestellungen sowie die Reaktionen vorgegeben werden, anstatt diese über die Intention (Suchabsicht) abzuleiten. Das alles erinnert ein wenig an die Entwicklung von IRC-Chat-Bots in den 90er-Jahren – sehr statisch und unflexibel.

Gleichzeitig müssen Benutzer die gewünschten Alexa Skills dediziert suchen, freischalten und sich den Aufruf des Skills merken. Angesichts der Möglichkeit, dass die Alexa-Skills-Plattform eine ähnliche Popularität wie ein App-Store erlangen könnte, ist das Chaos hier vorprogrammiert.

Apple beschränkt sich mit dem Sirikit auf die sechs Bereiche Audio-/Video-Kommunikation, Messaging, Bezahl-Services, Bildersuche, Fitness und Mobilitäts-Buchung. Anwendungen, die nicht in diese Bereiche fallen, können in diesem Ökosystem schlicht (noch) nicht existieren.

Es bleibt abzuwarten, welcher Suchsystembetreiber sowohl eine offene als auch eine flexible und erweiterbare Schnittstelle für Drittanbieter bereitstellen wird. Der frühere SIRI-Nachfolger VIV, welcher von Samsung aufgekauft wurde, hatte hierzu bereits ein spannendes Konzept vorgestellt, seitdem ist jedoch keine weitere Kommunikation von Fortschritten erfolgt.

Platz 1 und 2 wird wichtiger denn je – in jedem Suchsystem

Der erste Platz unter den Suchmaschinenergebnissen für eine Suchabfrage wird wichtiger denn je. In einer Konversation umfasst eine Antwort auf eine Frage regelmäßig eben nur ein einziges Ergebnis – und zwar „das beste“.

Wer beispielsweise Alexa (Echo von Amazon) nach einer Empfehlung für Kontaktlinsen einer bestimmten Stärke fragt, bekommt den Top-Seller angeboten. Danach folgt noch das zweitbeste Angebot – und dann nichts mehr. Die „Conversational Search“ wird das E-Commerce-Haifischbecken erneut verdichten. Die Gewinner sind die Top-Anbieter in den einzelnen Kategorien.

Neue Zielgruppen

„Sprachsuche“ bedeutet auch eine große Chance für die Erschließung neuer Kundengruppen: Menschen mit körperlichen Einschränkungen (z. B. Blinde oder Menschen, denen Körperteile für die Dateneingabe fehlen usw.) und auch Analphabeten haben nun einen deutlich besseren Zugang zum Internet, zum WWW und den damit verbundenen Diensten. In diesem Rahmen wird sicher auch das Thema „Barrierefreiheit“ auf ein höheres Level gehoben – was für alle Beteiligten sicher ein Vorteil ist.

Wie kann ich mein Unternehmen für das Thema „Sprachsuche“ und „digitale Assistenten“ vorbereiten?

Wer sich mit dem Thema „Optimierung der Findbarkeit und Erwartungskonformität digitaler Assets für Suchende“ (kurz: SEO) beschäftigt, sollte auf einer strategischen Ebene insbesondere die vielfältigen Verbindungen der Suchsysteme untersuchen:

Wer beispielsweise mit seinem lokalen Geschäft nicht in Yelp oder Tripadvisor vertreten ist und seine Website nicht für BING optimiert hat, existiert im SIRI-Ökosystem schlicht und ergreifend nicht. Und wer nicht den Bestseller für eine Kategorie auf Amazon betreibt oder einen Amazon-Echo-Skill zur Verfügung stellt, ist im Amazon-Suchsystem ebenfalls nahezu nicht sicht- und findbar.

Interessant ist in diesem Zusammenhang die einheitliche Nutzung von BING für die Websuche durch die Systeme Apple SIRI, Microsoft Cortana, Facebook M und Amazon Echo. Offensichtlich möchte keiner der größten Gatekeeper auch nur eine weitere Handbreit Digitalmacht an Google abgeben.

Smarte Online-Marketing-Verantwortliche finden heraus, welche Benutzerpfade die Bedarfsgruppe beschreitet, und leiten die Gatekeeper sowie die daraus resultierenden Suchsysteme ab, um letzten Endes dort die digitalen Assets für die rentabelsten Suchphrasen zu optimieren. In Kombination mit den einzelnen Benutzerpfaden (auch: „Customer Journey“) und dem jeweiligen Kontext macht es Sinn zu fragen:

  • In welchen (Such-)Systemen befindet sich meine Bedarfsgruppe?
  • Welche Fragen stellen sich diese Menschen?
  • Welche Begriffe (Terminologie) verwenden sie dafür?

Es ist grundsätzlich eine gute Strategie, neben den Angebots-Suchbegriffen auch intensiv an die Absichten des Benutzers zu denken. Wer in „Absichten“ denkt und plant, ist in der Lage, einen großen Teil der sprachlichen Formulierungen seiner Bedarfsgruppe abzudecken.

Lokale Unternehmen profitieren nach wie vor, wenn sie mit ihrem Unternehmensnamen, der korrekten Adresse, Telefonnummer und Kategorieeindeutig und konsistent in unterschiedlichen Listings, Apps und Suchsystemen eingetragen und verortet sind.

Auf operativer Ebene ist es eine gute Sache, digitale Assets bzw. Entitäten intensiv mithilfe von Schema-Markups bzw. Microdata-Tags auszuzeichnen. Gleichzeitig sollte eine Optimierung der besten Inhalte mit Fokus auf „Conversational Queries“, d. h. gesprochenen Suchanfragen stattfinden. Das kann zum Beispiel über FAQ-Komponenten („Häufig gestellte Fragen“), aber auch über Rezensionen oder dynamische Inhalte stattfinden – der Kreativität ist an dieser Stelle keine Grenze gesetzt.

Grundsätzlich gilt: Wer heute noch keine performante mobile Website besitzt, sollte dies schleunigst nachholen. Eine schlechte Erwartungskonformität aufgrund einer Enttäuschung nach der Auswahl eines vielversprechenden Suchmaschinenergebnisses kann für negative Benutzersignale sorgen.

Wenn diese Grundlagen erfüllt sind, können die Gedanken zur Optimierung weitergeführt werden. Je nach Suchsystem und Integration der Drittanbieter kann bereits heute auf viele Funktionalitäten zugegriffen werden:

  • Anknüpfen einer Suchanfrage an die vorangegangene Suchanfrage.
  • Automatische Integration des Kontexts (Ort, Zeit, umgebende Systeme, geöffnete Apps usw.) in die Suchabfrage, ohne dass der Kontext explizit erwähnt werden muss.
  • Durchführung von Korrekturen an bzw. kontextbasierte Selbst-Korrektur von Suchanfragen auf der Basis vorangegangener Suchanfragen.
  • ...

Wenn Suchsysteme bzw. digitale Assistenten mit beispielsweise solchen Fragen vernünftig umgehen können, ist sicher schon vielen Menschen geholfen:

„Es hat gestern gehagelt und mein Auto ist beschädigt. Wen soll ich anrufen?

Tiefer gehende Fragen

Digitale Assistenten und Sprachsuche – das wird ein sehr großes und sehr dauerhaftes Thema im (Online-)Marketing. Umso brennender interessieren solche Fragestellungen:

  • VoiceXML (https://en.wikipedia.org/wiki/VoiceXML) ist ein Standard aus 1999. Warum arbeiten die großen Anbieter nicht an diesem Standard weiter?
  • Die Plattform eMarketer hat herausgefunden, dass die „Digital Display Ad“-Ausgaben die „Search Ad“-Ausgaben überholt haben. Wie funktionieren „Display Ads“ in einer sprachgesteuerten, audiobasierten Welt und welche Lösungen sollten Agenturen hierfür entwickeln?
  • Heute verhindert lediglich die fehlende Funktion eine Frage wie zum Beispiel: „Was habe ich als Letztes gefragt?“ Welche Sicherheitsfunktionen brauchen Sprachsuchsysteme und digitale Assistenten?
  • ...

Die digitale Zukunft gehört zweifelsohne der Mensch-Maschine-Konversation. Und dieses Kind lernt gerade laufen. Wir sollten uns freuen, dass wir dabei sein können!