Googles BERT-Update

Wie der NLP-Algorithmus die Suche verändert

Kai Spriestersbach

Kai Spriestersbach ist erfolgreicher Unternehmer, Berater und KI-Forscher mit einem Masterabschluss in Webwissenschaften. Sein Sachbuch „Richtig Texten mit KI: ChatGPT, GPT-4, GPT-3 & Co.“ erschien im April 2023 im mvg Verlag. Er hilft Unternehmen dabei, generative KI sicher produktiv einzusetzen, und arbeitet an seiner Masterclass zum Thema generative KI.

Mehr von diesem Autor Artikel als PDF laden

Alle SEOs reden aktuell über BERT, doch kaum jemand kann sich erklären, wieso Google vom größten Update seit fünf Jahren und einem der größten Fortschritte im Bereich der Suchmaschinentechnologie überhaupt spricht. Denn wer sich bislang Sichtbarkeitskurven von Domains und Rankingverläufe einzelner Keywords angesehen hat, um Googles Updates und den dahinter liegenden Mechanismen auf die Schliche zu kommen, der wird sich in Zukunft gewaltig umstellen müssen. Schon die berühmt-berüchtigten Core-Updates konnten nicht mehr über die vergleichende Analyse von Gewinnern und Verlierern entschlüsselt werden. Die Suchmaschine ändert sich derzeit sehr viel tiefer greifend. Es geht dabei viel mehr um ein echtes Verständnis der Inhalte, also um die Extraktion von Wissen statt des Findens und Sortierens bloßer Informationen. Doch was ist BERT eigentlich und wie funktioniert der Algorithmus? Was muss man als Webseiten-Optimierer von NLP wissen und wie passt das alles ins große Spiel von Google?

BERT lautet der Name des neuesten Updates von Google. Wie jedes Mal, wenn eines der Google-Updates einen Namen bekommt, ist die Aufregung in der SEO-Szene besonders groß. Google spricht selbst vom größten Update seit mehr als fünf Jahren und von einem der größten Fortschritte in Sachen Suchmaschinentechnologien überhaupt. Doch irgendwie hat niemand etwas davon gemerkt. Keine Listen von Gewinnern und Verlierern, keine Analysen, was sich geändert hat, keine Hinweise auf irgendetwas. Googles offiziellen Aussagen zufolge wirkt sich BERT auf etwa 10 % der Suchanfragen aus und wird außerdem für die Generierung der sogenannten „Featured Snippets“ weltweit in allen Sprachen eingesetzt. Viel mehr als ein paar Beispiele und allgemeine Erklärungen sowie den mittlerweile üblichen Hinweis, man könne nicht für BERT optimieren, gibt es seitens Google nicht.

Um Googles BERT-Update zu entschlüsseln und möglicherweise sogar die nächsten Schritte des Suchmaschinengiganten voraussehen zu können, gilt es zunächst, BERT als NLP-Algorithmus zu verstehen. Dieser stammt bereits aus dem Jahr 2018 und bezeichnet eine der wichtigsten Forschungsarbeiten im Bereich der Computerlinguistik, auf Englisch Natural Language Processing (NLP) der letzten 20 Jahre. Bei BERT handelt es sich um ein sogenanntes künstliches neuronales Netz. Über diese Art des maschinellen Lernens haben wir bereits in den Ausgaben #36 zum Thema RankBrain (www.websiteboosting.com/magazin/36/rankbrain-googles-neue-ai-superwaffe.html) und Ausgabe #42 zum Thema „Neuronale Netze verstehen – wie? Einfach ausprobieren!“ (www.websiteboosting.com/magazin/42/neuronale-netze-verstehen-wie-einfach-ausprobieren.html) geschrieben. Im Falle von BERT besteht dieses Netz aus 120 bis 350 Millionen künstlicher Neuronen, ein wirklich komplexes Thema also.

Begriffsklärung: Was ist BERT eigentlich genau?

BERT steht für „Bidirectional Encoder Representations from Transformers“ und kann mehrere Dinge meinen:

Zum einen ist es ein Bestandteil des Google-Suchalgorithmus, also eine Art Werkzeug oder Framework namens Google BERT, das helfen soll, die Nuancen und den Kontext der Wörter in der Suche besser zu verstehen und diese Anfragen besser mit hilfreichen Ergebnissen abzugleichen.

Zweitens ist BERT ein Forschungsprojekt und der Titel der daraus resultierenden akademischen Arbeit. Die Arbeit wurde erstmals im Oktober 2018 unter dem Titel „BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding“ veröffentlicht und von Jacob Devlin, Ming-Wei Chang, Kenton Lee und Kristina Toutanova aus dem Google AI Language Team verfasst (arxiv.org/abs/1810.04805).

Darüber hinaus ist BERT mittlerweile auch ein Natural Language Processing (NLP) Framework, das von Google erstellt und dann als Open-Source-Software zur Verfügung gestellt wurde, sodass das gesamte Forschungsfeld der natürlichen Sprachverarbeitung insgesamt vom verbesserten Verständnis natürlicher Sprache profitieren konnte.

Seit der Veröffentlichung des Forschungspapers Ende 2018 hat BERT die NLP-Welt im Sturm erobert. So führt BERT in der weiterentwickelten Variante namens ALBERT das SQuAD 2.0 Leaderboard an, in dem Machine-Learning-Algorithmen daran gemessen werden, wie gut sie die Antworten auf Fragestellungen aus Texten geben können (rajpurkar.github.io/SQuAD-explorer/). Dabei werden die künstlichen neuronalen Netze zunächst mit einer Vielzahl von Texten, dazu passenden Fragen und den richtigen Antworten trainiert, um später dann unbekannte Fragen zu bislang unbekannten Texten korrekt beantworten zu können. Das Netz lernt

Abbildung 1: Screenshot mit dem aktuellen SQuAD 2.0 Leaderboard; die Plätze 1 bis 4 sind von ALBERT belegt, nur eine XLNet-Variante schafft es mit einem anderen Ansatz derzeit noch auf Platz 3

Dass Algorithmen Fragen beantworten können, ist natürlich nicht neu, jedoch ist eine Besonderheit von BERT, dass für die Beantwortung komplizierter Fragestellungen in speziellen Sachverhalten nicht wie bei bisherigen Algorithmen große Datenmengen zum Training benötigt werden. Das grundlegende Verständnis von Texten und deren Struktur wurde bei BERT auf Basis der englischen Wikipedia und des BookCorpus mit über 3 Milliarden Wörtern trainiert. Das ermöglicht es, anschließend und mit relativ wenig Text und Aufwand Spezialwissen für einzelne Wissensgebiete aufzubauen und darin nun sehr hilfreiche Antworten geben zu können.

Eine weitere Besonderheit von BERT ist, dass es nicht mehr wie bisher für jede Aufgabe im NLP einen eigenen Algorithmus benötigt. So waren in der Regel unterschiedliche Algorithmen jeweils führend bei verschiedenen Aufgaben wie beispielsweise der Beantwortung von Fragen, der Klassifizierung von Texten, der Analyse des sog. Sentiments, also der Stimmung eines Textes, oder der Erkennung benannter Entitäten.

Wie konnte BERT das gelingen?

Der Schlüssel zur Optimierung der Leistung, die im Design von BERT erreicht wurde, ist die Fähigkeit des Netzes, Einbettungen auf Eingabe-Ebene kontextunabhängig darstellen zu können, beispielsweise eine Darstellung für das Wort „Bank“, in den versteckten Schichten diese jedoch zu kontextabhängigen Repräsentationen verfeinern zu können, also beispielsweise unterschiedliche Repräsentationen für „Bank“ im Kontext von Finanztransaktionen, eine andere Repräsentation für „Bank“ im Kontext des Flussmanagements und wiederum eine andere „Bank“ als Sitzmöbel im Garten. BERT konnte erstmals diese sogenannten Homografe auflösen. Betrachtet man die aktuellen Entwicklungen der Sprachassistenten und die sogenannte „Voice Search”, kommen auch noch die Homofone dazu, also Wörter, die zwar gleich klingen, aber anders geschrieben werden und natürlich mit einem anderen Sinn verbunden sind. Wenn der Assistent also [ˈmaːlən] hört, kann dies die kreative Tätigkeit meinen oder das Zerkleinern von Kaffeebohnen. Erst aus dem Kontext erschließt sich, was der Nutzer wirklich meint.

Wie Ludwig Wittgenstein, einer der bedeutendsten Philosophen des 20. Jahrhunderts, bereits in seinem im Jahre 1953 veröffentlichten Buch feststellte, liegt die Bedeutung eines Wortes in seinem Gebrauch in der Sprache. Gerade für Computer sind Wörter erst mal nur eine scheinbar zufällige Aneinanderreihung von Buchstaben. Erst die Verwendung in Sätzen verleiht diesen Buchstabenhaufen einen Sinn. Doch gerade hier hatten bisherige NLP-Systeme ihre Schwächen. Klassische Word-Embeddings, wie word2vec, die man aus RankBrain kennt, haben eine Reihe beeindruckender Features, sind aber lange noch nicht perfekt, denn sie sind gänzlich kontextfrei! Sie würden also versuchen, jede Variante von „Bank“ im hochdimensionalen Raum auf demselben Punkt abzubilden. Theoretisch kann es in dieser Art der Repräsentation das Wort „Bank” also nur einmal geben. In diesem Punkt besser sind die sogenannten autoregressiven Modelle. XLnet, GPT oder GPT-2 sind Beispiele für diese Art von Algorithmen, die sich jedes Wort im Zusammenhang mit den Wörtern davor ansehen und so lernen, das jeweils nächste Wort vorherzusagen. Sie eignen sich besonders gut zur Textgenerierung. Für ein optimales Verständnis ist jedoch auch das „danach“ eines Wortes sehr wichtig!

Abbildung 2: Autoregressives Modell – lernt, jeweils das nächste Wort vorherzusagen

BERT schaut nun erstmals in beide Richtungen, denn das B in BERT steht für bidirectional, also bidirektional. Beim Training wird jeweils ein Wort zufällig im Satz maskiert und so lernt BERT, fehlende Wörter vorherzusagen, ganz egal, wo sie stehen. Es betrachtet also den gesamten Kontext und nicht nur die Wörter davor oder dahinter.

Abbildung 3: Masked Language Model – bidirektionales Training mit maskierten Wörtern in Sätzen

Einen weiteren großen Fortschritt gab es durch BERT bei der Erkennung sogenannter Korreferenzen (auch Referenzidentitäten):

Bei der Übersetzung des englischen Satzes „The animal didn’t cross the street because it was too tired” bezieht sich das Wörtchen „it” für Menschen klar erkennbar auf „das Tier”, das die Straße nicht überquerte, da es zu müde war. Folglich lautet die korrekte Übersetzung für das Wort „it” eben „es” für „das Tier”.

In dem fast identischen Satz „The animal didn’t cross the street because it was too wide” hingegen bezieht sich „it” auf „die Straße” und so muss folglich in der Übersetzung „it” nicht mit „es”, sondern mit „sie” für „die Straße” übersetzt werden.

Für Menschen, die Sprache in jahrelangem Training gelernt haben, ist das vollkommen offensichtlich. Für einen Algorithmus ist die Auflösung dieser Korreferenzen jedoch alles andere als trivial und führte 2017 das Google-Team bei der Weiterentwicklung von Google Translate auf die Technologie der sogenannten Transformers (das T in BERT) (ai.googleblog.com/2017/08/transformer-novel-neural-network.html). Mit sogenannten Transformers lernt BERT die Wahrscheinlichkeit, dass „it” im ersten Satz für das Tier steht und dass „it” im zweiten Satz für die Straße steht. Hierbei muss jedoch der gesamte Satz berücksichtigt werden.

Abbildung 4: Transformers in Aktion – unterschiedliche Wahrscheinlichkeiten für Wortbezüge farblich markiert

Eine weitere Besonderheit am Training von BERT ist, dass hier stets zwei Sätze gleichzeitig zum Lernen übergeben werden. So kann auch der Kontext über Satzgrenzen hinweg berücksichtigt werden, denn nicht immer steht die relevante Information im selben Satz.

Doch die Entwicklung von BERT steht nicht still. Hunderte Forschungsteams arbeiten an der Weiterentwicklung des Algorithmus und jede NLP-Anwendung konnte von BERT profitieren. So integrierte beispielsweise Microsoft BERT in sein Multi-Task Deep Neural Network (MT-DNN) und Facebooks AI-Abteilung treibt ein internes Projekt namens RoBERTa auf Basis von BERT voran. Googles aktuellste und leistungsfähigste Variante hört auf den Namen ALBERT und konnte ohne nennenswerte Qualitätsverluste den Rechenaufwand und Speicherbedarf des Modells deutlich reduzieren (ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html).

Wenn man sich klar macht, dass Google dieses Modell nach eigenen Aussagen bei 10 % aller Suchanfragen weltweit einsetzt, lohnt sich mit Sicherheit jedes Promille-Pünktchen an Effizienzgewinn. Denn im Gegensatz zu statischen Machine-Learning-Modellen muss BERT bei jeder Suchanfrage in Echtzeit ausgeführt werden.

BERT als Google-Update

Zunächst nur für die englische Sprache gestartet, ist das Google BERT-Update nun seit 09.12.2019 in mehr als 70 Sprachen live. Ein Jahr nach der Veröffentlichung von BERT als Forschungsarbeit gibt Google nun also das algorithmische BERT-Update für seine Suche frei und betont seine Bedeutung für das Verständnis von Inhalten und Suchanfragen.

Abbildung 5: Ankündigung vom 09.12.2019 von Googles @SearchLiaison auf Twitter, dass BERT weltweit ausgerollt wird

Wie setzt Google BERT ein?

Auch wenn sich seit dem Erscheinen der Websuche eine ganze Menge getan hat, ist das Thema „Suche“ längst kein gelöstes Problem. Jedem, der meint, Google sei als Suchmaschine schon perfekt, sei einmal geraten, sich ins Auto zu setzen und seinen digitalen Assistenten zu fragen: „Wie lange hat die nächstliegende Bankfiliale offen und wie komme ich am schnellsten dorthin?“ Googeln musste gelernt werden. In den Anfangszeiten der Web-Suchmaschinen mussten wir uns auf die Funktionsweise der suchwortorientierten Suche einstellen, denn andersherum war es damals schlichtweg nicht möglich. Selbst bei der Voice-Search ist es derzeit häufig noch so, dass wir die Sprache als Ersatz für die Tastatur benutzen, aber keine echten Dialoge mit der Maschine führen.

Doch Googles Ziel ist klar. In Zukunft sollen wir echte Gespräche mit unseren Geräten führen. Auf der Google I/O 2017 kündigte Googles CEO Sundar Pichai erstmals eine Veränderung der strategischen Ausrichtung von Mobile First hin zu AI First an. Auf der I/O 2019, also nur zwei Jahre nach der Verabschiedung seiner „AI-First“-Strategie zeigte CEO Sundar Pichai erst kürzlich, wie Google KI in alle seine Plattformen und Dienste integriert, um ein „hilfreicheres“ Google zu kreieren. Google möchte also wirklich helfen, nützlich sein, den Nutzer unterstützen, ihm Arbeit abnehmen. Das geht sehr viel weiter, als eine bloße Auflistung hübscher Suchergebnisse zu generieren.

Tipp

Wer sich noch nicht so recht vorstellen kann, wie wir vielleicht in Zukunft mit unseren Geräten echte Gespräche führen könnten und was das für unser Nutzerverhalten, ja vielleicht sogar unsere Gesellschaft als Ganzes bedeutet, sollte sich den Film „Her“ von Spike Jonze aus dem Jahr 2013 anschauen (https://www.imdb.com/title/tt1798709/).

Beispiele: Suchanfragen mit und ohne BERT

Schaut man sich die Beispiele aus Googles Blogartikel zur Veröffentlichung des BERT-Updates an (www.blog.google/products/search/search-language-understanding-bert/), sieht man sehr schön, dass mit der BERT-Technologie offensichtlich insbesondere bei „Conversational Searches“, also Suchen in natürlicher Sprache, der „Intent“, also die tatsächliche Absicht des Suchenden, nun besser verstanden werden kann.

Ein anschauliches Beispiel hierfür ist die Suchanfrage „2019 brazil traveler to usa need a visa”. Als Google-Ergebnis wurde vor BERT eine Seite ganz oben gerankt, in der erklärt wurde, dass Staatsbürger der Vereinigten Staaten nach Brasilien ohne Visum einreisen können. Das Wörtchen „to” in der Suchanfrage wurde also ignoriert, obwohl es doch in dieser Suchanfrage den besonderen Kniff darstellt. Mit BERT erscheint nun eine Seite ganz oben, auf der man als Brasilianer direkt alle Informationen für ein Visum für die USA finden und dieses sogar online beantragen kann. Ähnliche Beispiele zum besseren Verständnis natürlicher Sprache gab es damals bereits bei Hummingbird und RankBrain, funktional gesehen ist BERT also erst mal nur eine Weiterentwicklung.

Abbildung 6: Beispiel von Google zur Suchanfrage „2019 brazil traveler to usa need a visa” vor und nach BERT

Das zweite Beispiel, das Google in seinem Blogpost eingebunden hat, ist ganz ähnlich gelagert. In der Suchanfrage „Can you get medicine for someone pharmacy” wurde vor BERT das Wörtchen „for” offenbar ignoriert und man landete auf einer enzyklopädischen Seite, die erklärte, wie man verschreibungspflichtige Medikamente bekommt. Mit BERT wird die Frage nun tatsächlich beantwortet, ob ein Freund oder ein Familienmitglied für einen Patienten verschreibungspflichtige Medikamente abholen kann.

Abbildung 7: Beispiel von Google zur Suchanfrage „Can you get medicine for someone pharmacy” vor und nach BERT

Auch bei der Erstellung sogenannter „Featured Snippets“, also besonders hervorgehobener Inhalte aus einer Webseite, hilft Googles BERT offensichtlich enorm. In der Beispielsuchphrase „parking on a hill with no curb” wurde in der vorherigen Variante die Frage, wie man auf einem Hügel ohne Bordstein parken darf, nicht geklärt, da das Wörtchen „no” scheinbar ignoriert wurde. Mit BERT kommt nun die richtige Antwort direkt aus der Suchmaschine.

Abbildung 8: Beispiel von Google zur Suchanfrage „parking on a hill with no curb” mit sogenanntem Featured Snippet

Googles BERT hilft also, besser zu verstehen, was Wörter in einem Satz bedeuten, mit allen Nuancen des Kontextes. Soweit sich erkennen lässt, setzt Google BERT ausschließlich für sogenannte Conversational Searches und Longtail-Suchanfragen ein, also Suchanfragen, die selten stattfinden, der natürlichen Sprache nahekommen und aus mehreren Wörtern bestehen. Im Gegensatz dazu setzt der Mitbewerber Bing von Microsoft nach eigenen Angaben BERT bereits seit April weltweit und bei sämtlichen Suchanfragen ein (Quelle). Da die Ausführung von BERT in Echtzeit eine rechenintensive Angelegenheit ist, scheint Google offenbar bei vielen Suchanfragen auf BERT zu verzichten. Möglicherweise liegen der Suchmaschine hierfür bereits ausreichend Nutzerdaten als Qualitätsindikator vor und effizientere Algorithmen wie RankBrain liefern bereits exzellente Ergebnisse. Bei Microsofts Suchmaschine Bing ist offenbar die allgemeine Suchergebnisqualität noch nicht so gut, weswegen BERT wohl bei jeder Suche weltweit eingesetzt wird, um die Suchergebnisse zu verbessern.

Abschließend ist es wichtig zu betonen, das Googles BERT keinen direkten Einfluss auf das Ranking von Webseiten hat, es folglich auch keine BERT-Penalty geben kann und man auch nicht direkt für BERT optimieren kann.

Wie könnte es mit BERT und Google weitergehen?

Sollte sich der Trend in Sachen digitaler Assistenten fortsetzen, wird es über kurz oder lang zu einer deutlichen Zunahme von Sprachsuchen kommen. So verkaufen sich aktuell beispielsweise Alexa-fähige Geräte besser als je zuvor. Amazons Echo Dot und der Fire TV Stick mit Alexa Voice Remote standen am Black Friday wieder einmal an der Spitze aller Verkäufe in den USA. Der Smart Speaker und die Fernbedienung sind die meistverkauften Produkte bei Amazon weltweit und verändern schon heute das Nutzungsverhalten von Millionen von Menschen im täglichen Umgang mit digitalen Geräten. Erst kürzlich gaben Apple, Google und Amazon bekannt, dass sie über den Zigbee-Standard ihre Smart-Home-Geräte künftig miteinander sprechen lassen wollen (www.cnbc.com/2019/12/18/apple-google-amazon-zigbee-partner-on-smart-home.html).

Daher kann man wohl davon ausgehen, dass Googles BERT schon bald bei sehr viel mehr als 10 % der Suchen eingesetzt wird. Wie bereits eingangs beschrieben, tut sich noch eine Menge in der Forschung und außerdem suchen wir immer mehr in natürlicher Sprache, weil das eben immer besser funktioniert.

Weiterhin wird die verbesserte Fähigkeit der Suchmaschine, „die richtigen Antworten“ zu identifizieren, möglicherweise zu einem starken Anstieg bei der Integration der sogenannten „Featured Snippets“ führen, was für die rankenden Webseiten häufig mit einer Abnahme des Traffics aus der Suchmaschine einhergeht. Google wird hiermit immer mehr Fragen direkt in der Suche beantworten, was dem Nutzer den Klick auf die Website dahinter erspart. Dadurch treten immer mehr Zielkonflikte zwischen Google und Webseitenbetreibern zutage. Zwar kann eine Webseite, die die eigenen Web-Dokumente für die „Featured Snippets“ optimiert geschrieben und strukturiert hat, die Sichtbarkeit und zumindest die Chance auf Traffic in der Antwortmaschine Google maximieren, mittelfristig könnte Google jedoch mit dem eigenen Wissensgraph immer mehr Geschäftsmodelle obsolet machen.

Spätestens wenn Google dazu übergeht, aus den strukturierten Daten der Webseitenbetreiber und unstrukturierten Informationen der Webseiten das inhärente Wissen zu extrahieren, das zur Vervollständigung des Knowledge Graphs fehlt, braucht es ein neues Verhältnis zwischen den Inhaltslieferanten und der Verwertung dieser seitens Google. SEOs liefern schon heute durch die Einbindung des FAQPage-Schemas ideale Trainingsdaten für eine echte Antwortmaschine der Zukunft. Das Dreigespann aus Text (der Webseite), Frage und vollständiger Antwort ist genau das, was im SQuAD-Datensatz benutzt wird, um die NLP-Algorithmen zu trainieren und anschließend zu evaluieren. Hier bietet sich den Suchmaschinenoptimierern ein mögliches Fenster, die eigenen Wahrheiten über diese Trainingspaare zur Wahrheit von Google werden zu lassen. Googles Aufforderung in den Richtlinien, diese Fragen- und Antworten-Funktion nicht werblich einzusetzen (FAQPage darf nicht zu Werbezwecken verwendet werden; developers.google.com/search/docs/data-types/faqpage) legt jedoch den Schluss nahe, dass diese nicht ungefiltert verwendet werden.

BERT vervollständigt den Knowledge Graph

Eine aktuelle Forschungsarbeit zeigt beispielsweise, dass man BERT auch zur Vervollständigung von Wissensgraphen einsetzen kann, indem man statt regulärer Texte einfach sogenannte Knowledge-Triples verwendet. Wissensgraphen wie FreeBase, das die Basis von Googles Knowledge Graph darstellt, aber auch YAGO und WordNet stellen eine wichtige Basis für viele KI-Aufgaben dar, beispielsweise semantische Suche, Empfehlungssysteme oder auch die Beantwortung von Fragen. Ein Knowledge Graph ist typischerweise ein multirelationaler Graph, der Entitäten als Knoten und Beziehungen als Kanten darstellt. Jede Kante wird als Triplett dargestellt, was die Beziehung zwischen zwei Endverbindungen anzeigt, z. B.: „Steve Jobs, [hat gegründet], Apple Inc.“ Drei Forschern der NU, die sich mit neuesten KI-Algorithmen anwendungsbezogen für den Bereich Medizin beschäftigen, ist es nun gelungen (arxiv.org/abs/1909.03193), das vortrainierte Sprachmodell BERT für die Vervollständigung von Wissensgraphen zu verwenden. Deren Methode nimmt Entitäts- und Relationsbeschreibungen eines Tripels als Input und berechnet die Bewertungsfunktion des Tripels mit dem KG-BERT-Sprachmodell.

Abbildung 9: Illustrationen der Aufmerksamkeitsmuster von KG-BERT am Beispiel-Triplett „20-Dollar-Schein“ [ist Unterklasse von] „Geldschein“

Das Thema Semantik und damit Entitäten und deren Beziehungen wird also auch im Bereich SEO zunehmend wichtiger. In der englischsprachigen Suche beeinflusst diese neue Form der Wissensgenerierung bereits massiv die Ausgabe des Knowledge Graphs. Wie im Beispiel in Abbildung 9 zu sehen, wird die Suchanfrage „wordpress themes“ bereits mit einem Knowledge-Graph-Panel in der rechten Spalte dargestellt, mit der Entität „WordPress themes“ für die offenbar templatemonster.com die höchste Relevanz besitzt, obwohl diese Webseite in der organischen Suche lediglich auf Platz 4-6 rankt! In der mobilen Suche wird das Knowledge-Graph-Panel in der Regel über den organischen Ergebnissen eingeblendet, was die Bedeutung dieser Entitätserkennung und -zuordnung weiter steigert.

Abbildung 10: Screenshot der Suchergebnisseite zu „wordpress themes" aus der englischsprachigen Suche

Ein Blick auf die derzeitigen NLP-APIs, die Google seinen Kunden als Dienstleistung anbietet, lässt einige Rückschlüsse auf aktuelle Möglichkeiten und Fähigkeiten der Suchmaschine zu. So lässt sich beispielsweise in der Dokumentation der Cloud NLP-API eine vollständige Liste der Inhaltskategorien einsehen, die für die Methode classifyText zurückgegeben wird (cloud.google.com/natural-language/docs/categories?hl=de). Diese Kategorien könnte Google beispielsweise in der Suche für das Clustering von Webseiten verwenden, um themenspezifische BERT-Varianten zu trainieren. Daher ist der Blick auf die gelieferten Kategorien und deren „Confidence Score“ für jeden Suchmaschinenoptimierer ein gefundenes Fressen. Hier sagt Google quasi selbst, zu welchem Themenbereich ein Text zugeordnet wird und wie sicher sich die Suchmaschine dabei ist!

Wer noch ein wenig visionärer auf das Thema SEO in der Zukunft blicken möchte, sollte sich noch die Google Vision API und deren Möglichkeiten ansehen. Spätestens, wenn in ausreichend vielen Haushalten Googles Smart-Home-Geräte mit offenen Kameras und Mikrofonen stehen, könnte Google die Erwähnung von Marken und Produkten im echten Leben in die Suchergebnisse einfließen lassen. Die Vision API kann sogar anhand von Mimik, Gestik und der Stellung von Augen und Pupillen erkennen, ob wir uns für ein Produkt, eine Marke, eine Meinung oder eine Person begeistern oder ob uns eine Antwort aus der Suchmaschine vielleicht enttäuscht oder sogar verärgert. Vielleicht kommen schon bald Dienstleister auf die Idee, mit bestimmten Produkten durchs Bild zu laufen, um deren Relevanz zu steigern. Das neue Linkbuilding findet also auch in der echten Welt statt und es wird immer wichtiger, den Menschen ins Zentrum seiner Anstrengungen zu nehmen.

Das mag alles ziemlich abgefahren klingen, aber genauso wie Menschen überschätzen, was in zwei Jahren möglich ist, unterschätzen sie häufig massiv, was in zehn Jahren möglich sein wird.

Name	Zweck	Ablauf	Typ	Anbieter
CookieConsent	Speichert Ihre Einwilligung zur Verwendung von Cookies.	1 Jahr	HTML	Website
fe_typo_user	Ordnet Ihren Browser einer Session auf dem Server zu. Dies beeinflusst nur die Inhalte, die Sie sehen und wird von uns nicht ausgewertet oder weiterverarbeitet.	Session	HTTP	Website

Name	Zweck	Ablauf	Typ	Anbieter
_gcl_au	Wird von Google AdSense zum Experimentieren mit Werbungseffizienz auf Webseiten verwendet.	3 Monate	HTML	Google
AMP_TOKEN	Enthält einen Token, der verwendet werden kann, um eine Client-ID vom AMP-Client-ID-Dienst abzurufen.	1 Jahr	HTML	Google
_dc_gtm_--property-id--	Wird von DoubleClick (Google Tag Manager) verwendet, um die Besucher nach Alter, Geschlecht oder Interessen zu identifizieren.	2 Jahre	HTML	Google