Voice SEO – Wie man in der Sprachsuche oben rankt

Martin Grahl
Martin Grahl

Martin Grahl ist Gründer und Head of Operations von Claneo, einer Such- und Content-Marketing-Agentur in Berlin. Gemeinsam mit seinem Team unterstützt er Kunden in den Bereichen SEO, SEA und Content-Marketing.

Mehr von diesem AutorArtikel als PDF laden
Steffan Drews
Steffan Drews

Steffan Drews ist Teil des SEO-Teams der Berliner Search- und Content-Marketing-Agentur Claneo. Gemeinsam mit seinem Team unterstützt er Kunden in den Bereichen technisches und strategisches SEO. Zuvor sammelte er Erfahrungen als Online-Marketing-Consultant und Webdesigner.

Mehr von diesem AutorArtikel als PDF laden

Die Sprachsuche wird immer attraktiver, da sie uns schnell und in fast jeder alltäglichen Situation helfen kann, Lösungen oder Antworten auf unsere Fragen, Probleme und Bedürfnisse zu liefern. Aber wie erhöht man die Chance, genau eine dieser Lösungen zu sein, bzw. wie optimiert man seine Website für Voice Search?

Der Trend der Sprachsuche wird bereits seit vielen Jahren prognostiziert und tatsächlich steigen die Suchanfragen per Sprachsuche unaufhörlich an. In den Online-Medien findet man sogar Zitate wie zum Beispiel: „2020 werden 50 % aller Suchanfragen sprachbasiert sein“ (http://einfach.st/fastc3). So richtig belegen lässt sich diese Aussage zwar nicht und auch scheint sie recht optimistisch zu sein. Werden mittlerweile wirklich 50 % der Suchanfragen mittels Sprache gestellt? Google als Platzhirsch der Online-Suche gibt nur sehr selten neue Informationen dazu heraus. 2016 verkündete Google, dass „20 % der Suchanfragen in der Google App nun über Sprache getätigt werden“ (http://einfach.st/twg8), und im Dezember 2018 verkündete das Unternehmen, dass „27 % der Internetnutzer weltweit Voice Search auf mobilen Devices nutzen“ (http://einfach.st/twg9). Sprachassistenten und somit auch die Suche über diese Assistenten verbreiten sich also stetig weiter.

Micro Moments – das Smartphone immer zur Hand

Durch die steigende mobile Nutzung des Internets nehmen auch die mobilen Suchanfragen stetig zu. Die enorme Verbreitung von Smartphones und anderen mobilen Geräten hat das Suchverhalten der Nutzer stark geprägt. Hierbei spricht man von sogenannten Micro Moments. Diese stehen für den einen kurzen Moment, in denen sich Nutzer eine Frage stellen und sofort das Smartphone bereithalten, um ihr Informationsbedürfnis zu stillen. Dabei unterscheidet man vier Arten von Micro Moments (http://einfach.st/micromoments):

  • i want to know – Diese Anfrage ist noch sehr allgemein und der Nutzer möchte etwas wissen oder sich über etwas informieren.
  • i want to go – Wo ist das nächste Restaurant? So oder so ähnlich würde eine solche Suchanfrage aussehen. In jedem Fall möchte der Nutzer hier einen Ort erfragen.
  • i want to do – Hiermit gemeint sind vor allem How-to’s. Der Nutzer möchte etwas tun und sich vorher informieren. Besonders relevant sind Videos oder Ratgeber.
  • i want to buy –Der Nutzer möchte sich hier über ein Produkt und dessen Kaufabwicklung informieren.

Während die mobile Suche den Alltag bereits enorm erleichtert hat, ist die Sprachsuche sogar noch komfortabler für den Verbraucher. Sitzt man im Auto und möchte zum nächsten Schnellimbiss fahren, wäre es wohl sehr fahrlässig, mal eben die Suchanfrage auf dem Smartphone einzutippen. Außerdem ist es auch viel bequemer, die Frage einfach laut zu stellen, als jedes Mal etwas mühselig auf dem Handy einzugeben.

Wie optimiert man für die Sprachsuche?

Der grundsätzliche Ansatz der Sprachsuchen-Optimierung unterscheidet sich nicht von der herkömmlichen Suchmaschinenoptimierung: Es müssen sowohl die Technik als auch der Inhalt einer Website optimiert werden. Auch hier stellt sich die grundlegende Frage: Wonach suchen die Nutzer und wie kann man die Inhalte darstellen, um für die Suche und vor allem für die Nutzer relevant zu sein? Das heißt, auch für die Sprachsuche ist es entscheidend, dass man sich Gedanken über seine Keywords macht und wie man daraus den richtigen Seitencontent ableitet. Außerdem müssen die Ergebnisse nicht nur inhaltlich befriedigend sein, sondern auch eine optimale Nutzererfahrung bieten. So sollte der Nutzer bspw. nicht in endlosen Ladezeiten gefangen sein. Alle diese Punkte werden im Folgenden in Bezug auf die Sprachsuche gezielt betrachtet. Darüber hinaus wird genau beleuchtet, welche Faktoren für die Sprachsuche noch relevant sind.

Keyword-Strategie – welche Suchanfragen müssen bedient werden?

„O. k. Google, wo ist der nächste Supermarkt?“ „O. k. Google, wer ist Max Mustermann?“ „O. k. Google, wie optimiere ich für die Sprachsuche?“ Haben Sie es gemerkt? Diese drei Fragen geben bereits einen ersten Einblick, worauf es bei der Keyword-Recherche für Voice Search ankommen wird: das schnelle Beantworten konkreter Fragen. Das wird auch deutlich, wenn man die Micro Moments noch einmal genauer betrachtet. In jedem dieser Momente erfragt der Nutzer bestimmte Informationen.

Auf welche Keywords muss man nun optimieren? Wie bereits festgestellt, sind für die Sprachsuche ganz besonders informationale Keywords relevant: Der Nutzer möchte eine ganz bestimmte Information haben. Da informationale Keywords oft ganze Fragestellungen beinhalten, sind diese auch den Longtail-Keywords zuzuordnen, denn die Anfrage ist mittels Sprache viel spezifischer und natürlicher, weswegen die Keywords i. d. R. länger sein werden als in der normalen Suche. Ein Nutzer wird wohl kaum „Regal bauen“ einsprechen, sondern eher: „Wie baue ich ein Regal auf?“

Es gibt verschiedene Möglichkeiten, um herauszufinden, was eine konkrete Zielgruppe sucht. Zum einen kann man auf klassische Keyword-Tools wie den Keyword Planner zurückgreifen, welcher zu eingegebenen Keywords Ideen für weitere Keywords liefert. Viel spezifischer für die Sprachsuche sind Tools, die spezielle (W-)Fragen zu bestimmten Themen ausgeben, wie AnswerThePublic. Wichtig hierbei ist, dass genau untersucht wird, welche Art Micro Moment den Inhalt der Seite betrifft, um gezielte Inhalte auszuspielen. Zum anderen kann man sich auch der Social-Media-Kanäle bedienen, auf denen die Zielgruppe bereits aktiv ist, um dort ein genaues Verständnis für die Fragen der Nutzer zu bekommen. Foren und Bewertungsportale eignen sich hierfür besonders gut. Vertreibt eine Webseite beispielsweise ein Haarpflegeprodukt, kann man auf Beauty-Portalen bereits häufige Fragen oder Probleme der Nutzer ableiten. Diese können dann schon im Vornherein mit aufgenommen werden. Ein typisches Beispiel wäre in diesem Fall: „Ist dieses Haarpflege-Produkt für trockene Haare geeignet?“

Was ist mit transaktionalen Keywords? Die Wahrheit ist, Sprachassistenten sind noch lange nicht perfekt und weisen des Öfteren Fehler auf. Nicht selten lautet die Antwort Alexas: „Das weiß ich leider nicht.“ Das führt ganz logisch dazu, dass viele Menschen noch sehr zurückhaltend sind, was Transaktionen angeht. Außerdem ist da noch das leidige Thema mit dem Datenschutz: „Hört da tatsächlich jemand mit und schreibt sich meine Kontodaten auf?“ Sehr wahrscheinlich schreibt sich niemand die Daten auf, aber die Angst davor bleibt bei vielen Menschen im Kopf. Trotzdem befinden sich Sprachassistenten immer noch ganz am Anfang ihrer Reise und mit besserer Performance und weiterer Verbreitung wird sich die Suche mit Sicherheit nicht nur auf informationale Suchanfragen beschränken, sondern es werden auch Transaktionen darüber stattfinden.

Content-Erstellung und wie man die Keywords in Szene setzt

Sind die Keywords bekannt, muss der Content auf der Webseite entsprechend dargestellt werden. Um den Nutzer optimal abzuholen, ist es wichtig, sowohl die Fragen als auch deren Antworten bzw. Lösungen im Text einzubinden. Im normalen Textfluss können viele Fragen und Antworten sehr schnell nicht mehr natürlich wirken, daher kann es oft sinnvoll sein, eine Art FAQ zum Thema der Seite aufzubauen. So bekommt der Nutzer schnell und präzise Antworten. Denn schließlich ist es genau das, worauf es in der Voice Search ankommt.

Extrem wichtig ist außerdem die Lesbarkeit der Texte. Tatsächlich werden zum Beispiel Tabellen, welche bislang ein hervorragendes Mittel für die Aufwertung von Texten waren, weniger wichtig, da sie nur schwer vorgelesen werden können. Viele Suchanfragen via Sprachsuche werden vom Assistenten vorgelesen und müssen daher in natürlicher Sprache geschrieben werden, damit sie dementsprechend optimal ausgegeben werden können. Damit Nutzer vorgelesene Sätze besser verstehen können, ist es außerdem hilfreich, wenn die Sätze möglichst kurz und einfach formuliert werden.

Ein weiterer Nebeneffekt dieser Art der Content-Aufbereitung ist die Möglichkeit eines Featured Snippets. Dabei handelt es sich um die Platzierung eines extra großen Suchergebnisses auf Position 0 der Google-Suche – also ein Platz vor allen Wettbewerbern. Auch das ist für die Sprachsuche von großem Vorteil, denn die Wahrscheinlichkeit, dass Sprachassistenten dieses Ergebnis anstelle eines anderen vorlesen, ist relativ hoch. Chancen auf ein Featured Snippet hat man vor allem dann, wenn Google den Inhalt einer Seite richtig versteht und die Zusammenhänge im Text erkennt. Abbildung 1 zeigt ein solches Featured Snippet.

Sprachassistenten müssen sehr schnell sehr präzise verstehen, worum es auf der Webseite geht. Deshalb muss der Inhalt klar und strukturiert eingebunden werden. Um das zu gewährleisten, kann man den vorhandenen Content zusätzlich mit strukturierten Daten auszeichnen.

Was sind strukturierte Daten und warum sind sie für die Sprachsuche so wichtig?

Strukturierte Daten helfen, den Inhalt einer Webseite, wie der Name schon sagt, besser zu strukturieren. Das geschieht, indem Teile des Inhalts in einen ganz bestimmten Kontext gesetzt werden, wie zum Beispiel ein Rezept. Durch das Hinzufügen solcher Informationen fällt es Suchmaschinen wesentlich leichter, den Inhalt einer Website zu erfassen. Ohne diese Daten wäre viel Kontextarbeit nötig, was erstens länger dauern würde und zweitens auch zu Fehlern führen kann. Das wiederum bedeutet, dass der Inhalt der Seite nicht zu 100 % richtig verstanden wird. Ein weiterer Vorteil der Verwendung strukturierter Daten ist die Chance auf ein hervorgehobenes Snippet, also ein Snippet mit Zusatzinformationen wie Sternebewertungen (das sogenannte Rich Snippet), wie auf Abbildung 2 zu sehen.

Fakt ist: Strukturierte Daten sind für alle Formen der Suche wichtig. Dennoch gibt es einen Unterschied zwischen Voice Search und klassischer Suche, was die strukturierten Daten nahezu essenziell macht. Während bei der klassischen Suche unter dem Featured Snippet noch haufenweise andere organische Ergebnisse angezeigt werden und man gute Chancen hat, auch noch mit einem dritten Platz in den Suchergebnissen Traffic zu generieren, sieht es in der Sprachsuche schon wieder ganz anders aus. Fragt der Nutzer einen Sprachassistenten, gibt der keine Liste der Top-5-Ergebnisse aus, sondern bedient sich mit hoher Wahrscheinlichkeit am Platz 0 der Suchergebnisse, dem Featured Snippet. Kurz und knapp heißt das: Ohne strukturierte Daten hat Google es deutlich schwerer, die Inhalte einer Webseite richtig zu verstehen.

Zwar bilden Inhalte weiterhin die Grundlage für Featured Snippets, strukturierte Daten können aber zusätzlichen Kontext geben und somit die Wahrscheinlichkeit auf ein Featured Snippet erhöhen. Und damit wird im Endeffekt auch die Chance, von einem Sprachassistenten ausgegeben zu werden, erhöht.

Wie erstellt man strukturierte Daten?

Für das Erstellen strukturierter Daten wurde von Suchmaschinen das Projekt schema.org ins Leben gerufen. Es soll einen Standard für die Auszeichnung solcher Daten schaffen. Dort findet man jede Menge „Vokabular“, um diese Daten auf einer Webseite einzubinden. Hierbei werden drei Arten unterschieden: Microdata, RDFa und JSON-LD. Google empfiehlt dafür aber nur Letzteres. Microdata und RDFa sind ältere Formen, die direkt im HTML-Code eingefügt werden. JSON-LD hingegen ist die aktuellste Variante, wird in JavaScript durchgeführt und kann somit auch im Head einer Webseite eingebunden werden.

Ein ganz einfaches Beispiel von strukturierten Daten einer Unternehmenswebsite zeigt dieser kleine Code (Abbildung 3). Er vermittelt der Suchmaschine, um welche Organisation es sich hierbei handelt. Natürlich kann man noch deutlich mehr Informationen einfügen, wie zum Beispiel Social-Media-Profile, Adressen oder Telefonnummern. Ein längeres Beispiel für einen solchen Code gibt es im nächsten Absatz.

Strukturierte Daten speziell für Voice Search

Mit dem Trend der Sprachassistenten fügte schema.org auch speziell für die Sprachsuche erstellte Daten hinzu. Mit der Eigenschaft „speakable“ kann man festlegen, welche Inhalte sich besonders gut zum Vorlesen und somit für Sprachassistenten eignen. Es könnte sein, dass Inhalte, welche als „speakable“ gekennzeichnet sind, von Sprachassistenten in Zukunft bevorzugt werden. Bis vor Kurzem waren die Speakable-Markups nur auf News-Content bezogen, jedoch verkündete Google Ende 2019, dass sie nun auf alle Seiten anwendbar sind. (Allerdings befindet sich das Ganze noch in einer Beta-Phase und es gibt keine Garantie für optimale Funktionalität.)

Demnach sind für die Sprachsuche künftig die Typen „Article“ und „Webpage“ geeignet. Auf einer Website können beliebig viele Abschnitte als speakable gekennzeichnet werden. Das geschieht mit den Content Locators CSS-Selektoren oder Xpath, wobei es völlig egal ist, für welche man sich entscheidet. Allerdings dürfen nicht beide gleichzeitig verwendet werden.

Dieses Beispiel (Abbildung 4) zeigt deutlich, wie genau die strukturierten Daten in Bezug auf Speakable-Content funktionieren. Mit @type wird festgelegt, um welchen Typ einer Webseite es sich handelt. Dieser Typ könnte für einen News-Artikel auch auf „Article“ gesetzt werden. Interessant und neu wird es ab dem Punkt „speakable“. Hier legt man nun ganz explizit fest, welche Teile für einen Voice Assistant relevant sind. Das geschieht hier mittels Xpath. Vorgelesen werden in diesem Beispiel also der Titel der Website, die Meta Description und der Text, der im <p>-Tag die ID „ja“ hat. Hierbei ist es völlig unwichtig, wie diese IDs benannt sind. Wichtig ist nur, dass die IDs oder Klassen, die vorgelesen werden sollen, im Xpath aufgenommen werden. Die Paragrafen, die nicht im Content Locator aufgenommen sind, werden also nicht vorgelesen. Das gilt in diesem Fall sowohl für den Paragrafen mit der ID „nein“ wie auch für den Paragrafen ohne ID. Somit sind die SpeakableSpecifications eines der wichtigsten Werkzeuge, um der Suchmaschine zu signalisieren, dass diese Website geeigneten Content für die Sprachsuche bietet. Und man kann mit ihrer Hilfe sogar steuern, welche Inhalte vorgelesen werden sollen.

Pagespeed ist für die Sprachsuche noch wichtiger

Neben strukturierten Daten gibt es noch einen weiteren technischen Faktor, der erheblich zum Erfolg in der Sprachsuche beiträgt: die Ladezeit. Insbesondere in den Micro Moments der Sprachsuche möchten Nutzer „schnelle Antworten“. Diese bekommen sie natürlich auch nur von einer schnellen Website. Braucht eine Seite bspw. 20 Sekunden, um den ersten Inhalt bereitzustellen, haben es Suchmaschinen schwer, den Inhalt schnell auszugeben. Da die Sprachsuche größtenteils von mobilen Geräten ausgeführt wird, sollten Webseiten so gut wie möglich darauf optimiert werden. Auch der Einsatz von AMP HTML eignet sich, da AMP-Seiten von Google gerne bevorzugt werden. AMP bedeutet „Accelerated Mobile Pages“, was so viel heißt wie „beschleunigte mobile Seiten“. Beim sogenannten AMP HTML handelt sich um HTML, das durch neue Elemente erweitert wurde und somit bessere Ladezeiten ermöglicht. Jedoch gibt es hier viele Einschränkungen, was Layout und Funktionen durch JavaScripts betrifft. Die Umstellung von einer normalen mobilen Seite auf eine AMP-Seite ist jedoch recht kompliziert und auch ohne AMP lassen sich gute Ladezeiten erreichen. Die Verwendung ist also nur empfehlenswert, wenn auf der Seite ein einfaches Layout ohne besondere Funktionen ausreichend ist.

Welche Pagespeed-Maßnahmen sollten ergriffen werden?

Es gibt natürlich unzählige Maßnahmen, mit denen man die Ladezeit einer Website positiv beeinflussen kann. Rein theoretisch erzielt man die besten Ergebnisse mit einer reinen HTML-Seite ohne CMS und aufwendige Style-Elemente. Da dies aber weder ansehnlich noch komfortabel ist, sollte man sich auf die wichtigsten und einfachsten Maßnahmen konzentrieren:

  • Gzip-Komprimierung – Die Komprimierung einer Website kann enorme Ladezeit sparen und ist für alle Arten von Webseiten absolut empfehlenswert.
  • Bildergröße reduzieren – Bilder sollten in modernen Formaten wie JPEG2000 oder Webp eingefügt werden. Außerdem sollten diese bereits richtig dimensioniert werden. Ein Bild 1920 x 1080, welches letztendlich auf der Seite in 300 Pixeln dargestellt wird, ist enorme Verschwendung.
  • Lazy Loading – Sollte eine Seite viel Content bereitstellen, sollte auch Lazy Loading aktiviert sein, d. h., dass nur die Bilder sofort geladen werden, welche auch sichtbar für den Nutzer sind. Alle restlichen Bilder werden erst dann geladen, wenn der Nutzer zu ihnen herunter scrollt.
  • Keine Inline-Angaben – Sowohl Style-Elemente als auch JavaScripts sollten nicht in den fließenden HTML-Code eingebunden werden. Im Optimalfall werden diese in einer zentralen CSS- und einer zentralen JavaScript-Datei im Head eingebunden.
  • Caching – Alle Elemente, die auf einer Webseite geladen werden, verringern folglich auch die Ladezeit der Webseite. Hier ist das Caching eine gute Methode, Ladezeit einzusparen. Nachdem ein Nutzer das erste Mal die Elemente geladen hat, können diese gecacht werden und bei wiederkehrenden Besuchen sofort wieder bereitgestellt werden, ohne diese erneut herunterladen zu müssen.
  • HTTP Requests – Generell sollte man auf alles verzichten, was nicht wirklich gebraucht wird. Oft erhöhen nicht verwendete Stylesheets die Ladezeit einer Seite. Klare Empfehlung: Runter mit allem, was nicht gebraucht wird.
  • Server – Alles ist optimiert und trotzdem ist die Ladezeit sehr hoch? Das könnte natürlich auch am Server liegen. Ein billiges Hostingpaket reicht für umfangreiche Seiten trotz perfekter Pagespeed-Optimierung einfach nicht aus. Hier sollte man nicht am falschen Ende sparen.

Werden diese Dinge beachtet, wird eine Webseite in der Sprachsuche keine Probleme aufgrund geringer Ladegeschwindigkeiten haben.

Auch wenn der Pagespeed generell ein wichtiger Ranking-Faktor für die Sprachsuche ist, gibt es allerdings auch Fälle, bei denen der Pagespeed kaum eine Rolle spielt, da die Nutzer so schnell Antworten wollen, dass sie noch nicht einmal die Informationen auf einer Webseite brauchen, sondern lieber gleich direkt vorbeischauen. Aber auch hier kann man sich stark positionieren. Die Rede ist von Google Maps.

Local SEO – Google My Business

„O. k. Google, wo ist der nächste Sportladen?“ Der nächste Sportladen ist der, der einen gepflegten Google-My-Business-Account hat. Die Suchanfragen zu Orten in der Nähe sind besonders in der Sprachsuche sehr hoch, und da Google schon seit Jahren versucht, Google My Business zu pushen, wird auch in der Sprachsuche der Fokus auf eine Google-My-Business-Unternehmensseite immer stärker. Das hat den Vorteil, dass man technisch rein gar nichts umsetzen muss, da es nur um einfache Datenpflege geht. Dabei ist es wichtig, so viele Angaben wie möglich zu machen, wie z. B. Adresse, Telefonnummer, Öffnungszeiten etc. Je mehr Datenpflege hier betrieben wird, desto besser kann Google einschätzen, wie relevant ein Unternehmen für die Suche ist.

Fazit

Der Trend der Sprachsuche steigt weiter an und sie wird im Alltag immer relevanter! Voice Search kommt stetig, aber noch langsam. Wie rasant die Entwicklung in der kommenden Zeit wird, hängt vor allem vom technischen Fortschritt der Sprachassistenten ab. Sobald diese immer fehlerfreier funktionieren, wird auch die Sprachsuche immer allgegenwärtiger. Diese noch langsame Entwicklung birgt für Webseiten die Chance, möglichst früh und somit vor der Großzahl an Wettbewerbern auf die Sprachsuche zu optimieren und sich somit bereits vor allen anderen die Top-Rankings zu schnappen.

Aktuell sollte man sich noch auf informationale Keywords konzentrieren und die Fragen der Nutzer aufgreifen, um ihnen passende Lösungen anzubieten. Wichtig ist es hierbei besonders, die Fragen der Nutzer in natürlicher Sprache in den Kontext einzubinden und zu beantworten. Übrigens hat Google im Oktober 2019 mit dem BERT-Update einen riesigen Schritt in Richtung Sprachsuche getan, indem die Suchmaschine jetzt noch besser natürlich geschriebene Suchanfragen versteht.

Je besser Google den Inhalt einer Seite versteht, desto höher ist die Wahrscheinlichkeit auf ein Featured Snippet. Das ist für die Sprachsuche noch wichtiger, da i. d. R. nur ein Suchergebnis vorgelesen wird. Um Google dabei zu helfen, die Inhalte der Webseite zu verstehen, können die Inhalte mit strukturierten Daten markiert werden. Im Rahmen dessen wird insbesondere die Auszeichnung von Speakable-Content das wichtigste Werkzeug für Voice SEO überhaupt sein. So kann man die Sprachassistenten am besten ganz konkret ansprechen.

Neben diesen stark Content-fokussierten Optimierungsmöglichkeiten bleibt Pagespeed einer der wichtigsten weiteren Ranking-Faktoren für die Sprachsuche. Denn in der Sprachsuche ist der Fokus auf schnelle Ergebnisse noch stärker: Schnelle Antworten gibt es also nur von schnellen Seiten.

Neben klassischen Suchanfragen, für die man eine Seite sowohl für die klassische als auch für die Sprachsuche optimieren kann, gibt es im Rahmen von Voice Search auch die lokalen Suchanfragen, die bei mobilen Nutzern noch einmal eine besondere Bedeutung einnehmen. Um Anfragen wie „Wo ist das nächste Restaurant?“ bedienen zu können, wird ein gepflegter Google-My-Business-Account noch wichtiger, als er ohnehin schon ist.

Sind Sie bereit für Sprachassistenten?