Quo vadis – SEO?

Mario Fischer

Mario Fischer ist Herausgeber und Chefredakteur der Website Boosting und seit der ersten Stunde des Webs von Optimierungsmöglichkeiten fasziniert. Er berät namhafte Unternehmen aller Größen und Branchen und lehrt im neu gegründeten Studiengang E-Commerce an der Hochschule für angewandte Wissenschaften in Würzburg.

Mehr von diesem Autor Artikel als PDF laden

Irgendwann in den nächsten Wochen wird es wohl so weit sein: Google verändert seinen Algorithmus derart, dass gezielt Seiten mit übermäßig betriebener Suchmaschinenoptimierung betroffen sind. An der Oberfläche gibt sich die Branche gelassen, aber unter der Decke rumort es bereits. Es wird Zeit, einmal einen strategischen Blick auf das Thema SEO (Suchmaschinenoptimierung) zu werfen – und auch die Analysen von Rankingfaktoren kritisch zu hinterfragen. Welche Rolle wird Google+ für die zukünftige Rankingbeurteilung spielen? Let´s have a look!

Wird SEO sterben?

Letztlich wird sich wohl nicht abschließend klären lassen, ob der Ausruf „SEO ist tot“ in Foren, Blogs und Postings eher als Köder für Traffic benutzt wird oder ob der Urheber tatsächlich davon überzeugt ist. Um zu klären, ob Suchmaschinenoptimierung ein auslaufendes Geschäftsmodell ist oder auch weiterhin als Tätigkeitsfeld Bestand hat, kehrt man die Frage am besten um: „Welche Rahmenbedingungen müssen gegeben sein, dass SEO nicht mehr gebraucht wird?“ So betrachtet lässt sich schnell eine einfache wie zunächst banal klingende Antwort geben: Suchmaschinen müssten zweifelsfrei erkennen, welche Webseite zu einer Suchanfrage die meiste Relevanz hat. Dazu müssten sie nicht nur neu eingeführte Technologien zur Erstellung von Webseiten bzw. des Contents sofort adaptieren, sondern auch Manipulationsversuche von Webmastern oder Agenturen automatisiert erkennen können. Da Maschinen auf absehbare Zeit nicht über die kognitive Intelligenz eines Menschen verfügen werden, können sie eben nicht auf Anhieb erkennen, welche Seiten wirklich nützlich für den Suchenden sind. Eine eher dümmlich gestaltete Affiliate-Seite erkennt ein Mensch in der Regel innerhalb von Sekunden – eine Suchmaschine braucht dazu einige Mrd. Rechenoperationen und umfassende Hintergrunddaten. Und selbst dann klappt es nicht immer zuverlässig. Weil einer Maschine die für den Menschen intuitive Beurteilungsfähigkeit abgeht, muss sie auf Hunderte von Signalen zurückgreifen, die sie auf einer Seite findet – aber eben auch im Kontext der Seite (Links, Likes, Traffic, Bouncerate etc.) in ihren Datenbanken.

Hier sind wir vielleicht an einem oft vernachlässigten, aber sehr wichtigen Punkt angelangt. Maschinen lernen ja aktuell aus den oben beschriebenen Signalen, Seiten besser „einzuschätzen“. Allerdings haben viele der Seiten, die heute gut gelistet werden, bereits SEO-motivierte Signale integriert. Den Beurteilungsalgorithmen der Suchmaschinen wird es also gar nicht so leicht fallen, Nicht-SEO-Signale von den bisherigen SEO-Signalen zu unterscheiden. Insofern bekommen die Robots eigentlich wenig völlig natürlich gewachsene Unterscheidungskriterien mehr, auf die sie primär zurückgreifen könnten, wollten sie SEO-induzierte Signale ignorieren. Wenn genügend viele Sitebetreiber glauben, eine Keyworddichte (das Verhältnis des Vorkommens eines Keywords zum restlichen Text) von z. B. 4 % wäre gut für das Ranking, werden Suchmaschinen diese Dichte auf vielen Seiten vorfinden. Ist das nun ein natürliches Signal oder ein künstliches? Und wenn man anschließend bei einer Analyse herausfindet, dass gut rankende Seiten in der Regel eine Keyworddichte von etwa 4 % haben – ist dies dann der Beweis, dass die Beachtung dieser „Regel“ für ein gutes Ranking ursächlich war? Könnte es auch sein, dass die Seite vielleicht wegen anderer Signale trotzdem gut rankt? Dazu später mehr.

Für eine strategische Betrachtung ist noch ein weiterer Umstand wichtig, nämlich dass viele Content-Managment- und Shop-Systeme oft noch ungenügend mit technischen Problemen wie Weiterleitungen, Duplicate Content oder gar Barrieren für die saubere maschinelle Analyse umgehen. Auch das ist ja SEO: das Optimieren technischer Parameter, die es den Suchmaschinen erschweren, Inhalte zu klassifizieren oder überhaupt zu erkennen.

Wem das als Antwort noch nicht genügt, dem sei die Notwendigkeit eines strategischen Ansatzes nahegelegt. SEO ist, wenn man es richtig angeht, schon lange nicht mehr nur das Optimieren der Tags, der Keyworddichte oder des schlichten Linkaufbaus. Gute Agenturen erarbeiten mit ihren Kunden Konzepte, wie man wertvollen und nützlichen Content erstellt, dafür sorgt, dass dieser den richtigen Traffic bekommt und damit über dann wirklich natürliche Links von außen die richtigen Signale an die Suchmaschinen sendet. Die Zeiten von Tricksereien sind eigentlich schon länger vorbei, auch wenn diese stellenweise und kurzfristig natürlich immer noch ziehen mögen. Insofern übernimmt gutes SEO zunehmend auch die Aufgabe der Content- und Strategieberatung und man tritt damit genau in die leider allzu oft leer gelassenen Fußstapfen der Web-Agenturen, denen es oft mehr auf die optisch besondere Gestaltung mit wechselnden Bildern ankommt, als auf ein „Gefundenwerden“ und eine echte – im Sinne von zielführende – Beratung des Kunden.

Kann man Zusammenhänge zwischen SEO-Aktivitäten und dem Ranking herstellen?

Studien über Rankingfaktoren gibt es genügend und sie wirken sowohl im Web als auch auf Konferenzen geradezu magisch und magnetisch auf die Zuhörer. Dabei werden meist ein oder mehrere vermutete Rankingfaktoren auf ihr Vorhandensein bei guten Rankings untersucht. Häufig wird dabei der sog. Korrelationskoeffizient verwendet, der von -1 bis +1 geht. Minus eins bedeutet, dass eine eindeutige 1:1-negativ-Beziehung festgestellt wurde. Zwei Beispiele dazu: Erhöht sich die Anzahl an Käfern im Garten um fünf und hat sich gleichzeitig die Zahl der angepflanzten Erdbeeren um fünf vermindert, hat man nicht nur ein Ungezieferproblem, sondern auch einen Korrelationskoeffizienten von -1. Ein zweites Beispiel, diesmal aus dem Web: Man möchte prüfen, ob ein bestimmtes Meta-Tag und dessen Inhalt auf einer Webseite sich positiv auf das Ranking auswirken. Dazu wird über ein Set von Keywords (hier liegt oft schon der erste Fehler bezüglich der Repräsentativität) eine Anzahl an Rankings (z. B. die ersten hundert Rankings für 10.000 Keywords) gezogen und analysiert. Jetzt stellt man fest, dass alle rankenden Seiten dieses Meta-Tag und dessen Inhalt NICHT enthalten. Somit läge ebenfalls ein Korrelationskoeffizient von
-1 vor. Würden wiederum alle Seiten das Tag enthalten, wäre hier +1 auszuweisen. Ein Korrelationskoeffizient von 0 sagt aus, dass statistisch für die betrachteten Parameter keinerlei Zusammenhang – weder positiv, noch negativ – besteht.

"Correlation does not imply causation!"

Die seriösen unter den Studienautoren weisen für ihre Analysen oder bei Präsentationen auf der „Tonspur“ häufig darauf hin, dass Korrelation nicht gleichzusetzen ist mit „Ursache – Wirkung“. Und das ist korrekt und notwendig, denn die Tatsache, dass man eine Beziehung zwischen dem Faktor A und einer Ursache B gemessen hat, bedeutet noch lange nicht, dass Faktor A ursächlich für die Beobachtung ist! In dem Käferbeispiel oben könnte natürlich auch die gemeine Nacktschnecke für das Fehlen der fünf Erdbeeren verantwortlich sein und der Zufall für die zusätzlich per Inventur gezählten fünf Käfer. Aber da die Schnecke nachts zuschlägt, entzieht sich das der normalen Erkennbar- und Aufmerksamkeit. Erdbeer- und Käferanzahl korrelieren – und trotzdem hat beides möglicherweise rein gar nichts miteinander zu tun.

Bringt der Storch vielleicht doch die Babys?

Es ist statistisch nachweisbar, dass in Gebieten mit vielen Störchen mehr Kinder geboren werden. Der Korrelationskoeffizient ist positiv. Daraus würde allerdings niemand, der bei Sinnen ist, schließen, dass hier ein kausaler Zusammenhang besteht. Ebenso wenig ist der Umkehrschluss richtig: Es gibt immer weniger Störche und die Geburtenrate geht ebenfalls immer weiter zurück. Solche Beispiele von Trugschlüssen finden sich immer wieder, z. B. dass in Gebieten mit hoher Sterberate die Ärztedichte höher ist, dass der Intelligenzquotient mit zunehmender Schuhgröße steigt oder dass Frauen während einer Herzoperation öfter auf dem OP-Tisch sterben als Männer. Der wahre Zusammenhang liegt dabei in zunächst verborgenen Ursachen. So gehen Männer traditionell bei Problemen mit dem Herz (wegen der bekannten höheren Herzinfarktgefährdung) früher zum Arzt und damit werden Krankheiten meist frühzeitig erkannt und behandelt. Und dass Störche mehr in ländlichen Gebieten siedeln, wo aus ganz anderen Ursachen mehr Kinder als in Großstädten geboren werden, scheint als Grund auch weniger weit hergeholt, als dass sie tatsächlich die Kinder bringen. Bei solchen absurd klingenden Beispielen wie dem mit den Störchen winkt man in der Regel ab: „Das muss Zufall sein!“ In Wirklichkeit besteht der Zusammenhang aber natürlich, denn er wurde sauber nachgewiesen, nur ist der Bezug eben ein anderer. Klingt aber etwas in unseren Ohren plausibler, dann ist der Mensch eher geneigt, eine Verbindung zu vermuten. Intuition ist bei der Interpretation statistischer Analysen in der Regel ein schlechter Ratgeber. Wenn man einen Datenberg erklimmt, wird man häufig Zusammenhänge finden – wenn man ohne These ungerichtet sucht. Wer sich mit diesen Trugschlüssen eingehender beschäftigen will, dem sei das Büchlein von Gero von Randow „Mein paranormales Fahrrad“ empfohlen. In teils sehr amüsanten Geschichten klärt von Randow über die Fehler im Umgang mit Statistik auf. Dort findet man übrigens auch das Beispiel der ägyptischen Pyramiden, die ganz erstaunliche Korrelationen in den Baumetriken aufweisen und mit denen man noch heute gutgläubige Menschen beeindrucken kann.

Bei vielen, eher hobbymäßig zusammengeschraubten Analysen in SEO-Szenenblogs, scheint man die Unzulässigkeit solcher Trugschlüsse zu vernachlässigen oder gar bewusst zu ignorieren. Die informationshungrigen Leser saugen solche Informationen förmlich auf und bauen ihre Webseiten entsprechend um. Kein Wunder, dass man später einen wenn auch oft zarten Zusammenhang messen kann.

Warum ist es so schwer, vernünftige Analysen zu erstellen?

Ganz einfach: Weil eine Website oder Seite niemals allein betrachtet werden darf. Nehmen wir dazu folgendes Szenario an: Ein Schuh-Shop liegt mit dem Ranking für „Westernstiefel“ auf Platz 5 bei Google (Abbildung 1). Nun möchte er weiter nach oben in den Suchergebnissen und hört bzw. liest, dass viele „Likes“ in Facebook für das Ranking wichtig sind. Also baut er eine Seite bei Facebook auf und kümmert sich darum, dass viele Nutzer dort auf den Like-Button drücken. Mittlerweile hat sich sein Ranking verändert und er liegt auf Platz 3. Wunderbar – das mit den Likes hat also funktioniert. Wirklich? Ja, das könnte durchaus der Grund sein. Es könnte aber auch andere Ursachen haben, nämlich dass die Seiten, die vorher auf Platz 3 und 4 lagen, ihr Ranking durch bestimmte Umstände verschlechtert haben (in Abbildung 1 die Ziffern 2 und 3), z. B. weil ihnen Backlinks verloren gegangen sind, weil sich Text auf den Seiten geändert hat oder weil schlicht die Bouncerate (viele klickende Suchende kommen gleich nach dem Klick wieder zu Google zurück) zu hoch war. Vielleicht hat aber auch zufällig eine der jährlich etwa 500 Änderungen am Rankingalgorithmus dort angeschlagen und bei der Seite auf der bisherigen Position 5 eben nicht. Wer ist schuld an der Veränderung der Ergebnisse? Der Shopbetreiber mit den gesammelten Likes oder die beiden anderen, die Positionen verloren und den besagten Shop damit förmlich zwangsweise „nach oben“ gedrückt haben?

Abbildung 1: Google-Ergebnisse für Westernstiefel (AdWords- und Universal-Search-Ergebnisse wurden entfernt)

Es könnte auch sein, dass die vielen Likes zu mehr Aufmerksamkeit und damit zu mehr Backlinks geführt haben – und diese waren dann ursächlich für den Lift-up im Ranking. Was Analysen weiterhin sehr erschwert ist die zum Teil völlig unbekannte zeitliche Wirkungsdauer. Wann wirkt sich z. B. ein neuer Schwung positiver Backlinks auf das Ranking aus? Nach einem Tag, einer Woche oder einem längeren Zeitraum? Wann Google Kenntnis von Veränderungen im Linkbereich erhält, hängt davon ab, wie oft die linkgebenden Seiten besucht werden, und dies wiederum von der Häufigkeit der Änderungen auf diesen Seiten. Dazu kommt noch als Unbekannte, wie häufig Google die aufwendigen Linkberechnungen durchführt und ob sich sofort danach das Ranking ändert.

„Knöpfe“ drücken und dann auf die Rankins schauen – das reicht bei Weitem nicht aus!

Will man also einigermaßen zuverlässige Analysen bzw. Aussagen erstellen, darf man nicht nur auf die Veränderungen einer Seite achten, sondern man muss unbedingt auch die Seiten auf den Positionierungen über dem betrachteten Ergebnis im Auge behalten. In letzter Konsequenz bedeutet dies, diese Veränderungen über einen längeren Zeitraum hinweg zu überwachen incl. aller Veränderungen in den Linkstrukturen für diese Seiten!

Links kommen, verschwinden oder verlieren an Bedeutung

Ein nicht unwesentlicher Teil der Backlinks kommt heute aus Blogs, Newsseiten oder Social-Media-Plattformen wie z. B. Twitter. Anfangs wirken diese Links stärker, weil sie eine gewisse Zeit prominent in einem Beitrag oder einem Kommentar auf der Startseite oder einer wichtigen Unterseite stehen. Im Lauf der Zeit wandern sie nach unten aus und landen letztlich in einem Archiv. Die Links sind dann zwar noch vorhanden, kommen aber von sehr viel schwächeren Seiten. Wenn eines der zentralen Mantras des SEO stimmt, nämlich dass Links für das Ranking sehr wichtig sind, erkennt man hier zugleich ein Kernproblem: Die Rankings werden sich wohl fast ohne Unterbrechung und ohne einen einfachen, sichtbaren Grund verändern, nämlich allein schon deswegen, weil die Linkpower ständig im Fluss ist.

Der SEO hat´s gegeben – der SEO hat´s genommen? Nein, er nimmt´s eben nicht wieder.

Es könnte etwas mehr Licht ins Dunkel gebracht werden, wenn bei Analysen Änderungen auch wieder rückgängig gemacht würden. Erst kürzlich haben wieder SEOs auf einschlägigen Konferenzen von eigenen Experimenten berichtet. Man hat eine alte Site reaktiviert, Links aus Bookmarkdiensten dorthin gesetzt und siehe da – nach kurzer Zeit rankte die Site – erstaunlich! Funktionieren Bookmark-Links also doch? Oder es werden Facebook-Likes organisiert, und es tut sich beim Ranking nichts – nach zwei Wochen setzt man dann noch Links dazu und plötzlich schiebt sich die Seite in den Ergebnissen nach vorn. So weit, so gut? Würde man all die bisher angestellten Überlegungen außen vor lassen, wäre es zumindest für die Untermauerung der auf diese Weise aufgestellten Thesen extrem nützlich, wenigstens den Anschein eines Gegenbeweisversuches zu erwecken. Warum denn nicht die Links wieder entfernen? Wäre das Setzen tatsächlich ursächlich, müsste die so gepushte Seite eigentlich im Lauf der Zeit wieder in die Nähe des alten Rankings zurückfallen. Das Sahnehäubchen wäre dann, z. B. die Links wieder zu setzen und dann fände wieder eine Bewegung nach vorn statt. Hier hätte man wohl ein ganzes Stück mehr an Aussagekraft auf dem Tisch liegen. Aber die „Rücknahme“ von SEO-Maßnahmen einer dann gut rankenden Seite unterbleibt in der Regel aus gutem Grund (gute Rankings bringen Traffic und ggf. Umsatz). Solange also nur (gefilterte!) Erfolgsgeschichten als Beispiele für Rankingmechanismen propagiert werden, wird sich die echte Erkenntnis in Grenzen halten. Gute SEOs wissen, dass der Faktor Zeit bis zum Greifen von Maßnahmen nicht vernachlässigt werden darf und das wird zu Recht auch den Kunden erklärt: Sie müssen Geduld haben. Warum dann ausgerechnet der Faktor Zeit bei Analysen so sträflich vernachlässigt wird, ist eigentlich schwer einseh- und vermittelbar. Aber dem Vernehmen aus Hintergrundgesprächen nach gibt es hier bald Abhilfe. Wir dürfen gespannt sein!

"Eine Domain online bringen, ein paar Links oder Likes setzen und voilà – fertig ist die Fallstudie?"

Dennoch sind die vielen unterschiedlichen Analysen in ihrer Gesamtheit gesehen wertvoll, weil sie einen gewissen Einblick gewähren und auch Denkanstöße geben. Bei der Interpretation ist aber immer auch ein kritischer Blick angebracht. Was wurde eigentlich genau analysiert, wie ging man vor und welche Daten wurden als Ausgangsbasis verwendet? Wird dies nicht offengelegt, sollte man die Ergebnisse nicht als „gesicherte Erkenntnis“ übernehmen, sondern allenfalls als einen zarten Hinweis auf mögliche Zusammenhänge verbuchen. Eine Studie, die auf Zigtausend sog. Money-Keywords beruht, kommt dann auch sicherlich zu einem völlig anderen Ergebnis als eine, die Suchergebnisse aus dem Longtail-Bereich (Keywords mit mehreren Worten) untersucht. Und dass es nicht den „einen“ Algorithmus bei Google gibt, hat sich mittlerweile herumgesprochen. Je nach dem Wert eines Suchbegriffs (den Google ganz genau aus den Klickpreisen der AdWords kennt) greifen ganz andere Mechanismen bzw. werden die Signalgruppen für Onpage und Offpage unterschiedlich gewichtet. Daher ist es sicher kein schlechter Tipp, mit zwei wachsamen Augen hinzusehen.

Sind Likes das neue „SEO-Gold“?

Rand Fishkin, der in SEO-Kreisen als Berühmtheit gilt, hatte auf der SMX 2010 (Website Boosting berichtete in Ausgabe 05-06/2011) seine Analyse der Rankingfaktoren präsentiert. Fishkin konnte damals feststellen, dass Seiten, die viele Facebook-„Shares“ haben, eine sehr hohe Korrelation mit gutem Ranking aufweisen, ebenso schien sich die Summe dieser „Shares“, zusammen mit der Summe der „Likes“ und Kommentare, positiv auszuwirken. Rein rechnerisch lag die Bedeutung dieser Faktoren sogar noch über der für sehr wichtig erachteten IP-C-Class-Linkpopularität (wie viele Links von unterschiedlichen IP-C-Class-Netzen kommen). Fishin wies allerdings eindringlich gleich zu Anfang darauf hin, eine Korrelation von Faktoren bedeute nicht automatisch, dass diese auch tatsächlich zwangsläufig ein Rankingfaktor sein müssen.

Mitte Februar dieses Jahres publizierte Searchmetrics als Hersteller eines SEO-Tools und Betreiber eines der wohl vergleichsweise größten Domaindatenpools außerhalb von Suchmaschinen ebenfalls eine Studie mit Namen „SEO Ranking Faktoren 2012 Deutschland“ (kostenlos erhältlich unter einfach.st/smrf2012). Dieser Studie zufolge waren Facebook-Shares bei Google die Metrik, die am besten mit guten Rankings korrelierte. Dies wurde in der zugehörigen Pressemeldung korrekterweise etwas relativiert: „‚Korreliert´ bedeutet dabei, dass diese Metriken mit besserer Positionierung häufiger bei Seiten auftreten – final ermitteln lässt sich jedoch nicht, ob gute Platzierung = viele soziale Signale oder andersherum gilt.“ Die Überschrift „Facebook Shares sind pures SEO-Gold“ wurde allerdings dann aber viel zu häufig und unkritisch in die Welt hinausgetragen, und dies, obwohl die Autoren Marcus Tober und Sebastian Weber in der Studie selbst wortwörtlich einschränkten: „Vorsicht bei den Rückschlüssen: Korrelation ist nicht gleich kausaler Effekt! Es ist nachdrücklich darauf hinzuweisen, dass die Korrelationen in keinster Weise garantieren, dass die jeweiligen Faktoren einen Einfluss auf das Ranking haben, oder überhaupt von Google als Signal genutzt werden.“

Abbildung 2: Laut Google wurde das Credo der Studie weit über 5.000-mal zitiert

Was sagen Likes, Shares, Google geplustes eigentlich aus?

Für das Ranking bzw. als Rankingsignal zunächst eigentlich weniger, als man sich gemeinhin vorstellt. Wie das nicht ganz untypische Beispiel in Abbildung 3 zeigt, bekommen nützliche Informationen in der Regel eher weniger Likes oder ein Plus bei Google und werden weniger geteilt als lustige und abgefahrene Postings. In diesem Fall war es ein lustiges Bildchen, das 231-mal geplust wurde und 125-mal geteilt. Alle vier Beispiele entstammen dem gleichen Account – an der Anzahl Mitleser liegen solche extremen Unterschiede also wahrscheinlich nicht. Experten wissen, dass das Posten niedlicher Tierbilder bereits ausreicht, um viele Votings einzusammeln.

Abbildung 3: Was sagt die Anzahl an „Plus“, „geteilt“ und Kommentaren wirklich aus?

Ohne den sogenannten Social Graph (das maschinell auswertbare, komplette Beziehungsgeflecht mit allen zugehörigen Daten) nutzt einer Suchmaschine die Anzahl an vergebenen Votings also eher wenig bzw. sie sagt nichts über die tatsächliche Inhaltsqualität aus. Was ist wohl das wertvollere Signal? Fünf Shares aus dem engen Freundeskreis oder die gleiche Anzahl an Shares von Nutzern, mit denen jemand nicht verbunden ist? Wahrscheinlich Letzteres. Aber ohne Kenntnis der Beziehungen der Nutzer untereinander lässt sich das von außen schwerlich unterscheiden.

Warum wirft Google bestimmte Seiten nicht aus dem Index?

In persönlichen Gesprächen oder auch in Kommentaren in Blogs oder Foren hört und liest man immer wieder von einer gewissen Verwunderung, warum Google die eine oder andere Seite nicht aus dem Index verbannt oder zumindest ihr Ranking verschlechtert. Was der Mensch oft auf Anhieb sieht (wenig nützliche Inhalte oder billig zusammengestückelter Content von anderen Webseiten) – damit tut sich, wie oben bereits erwähnt, eine Maschine extrem schwer. Bei der Bewertung von Links muss sie z. B. versuchen, zu erkennen, ob ein Link wegen des guten Contents gesetzt wurde oder aus Gefälligkeit, wegen einer Geschäftsbeziehung, ob er getauscht oder gekauft wurde oder ganz allgemein nur gesetzt wurde, um das Ranking zu beeinflussen. Wurde er manuell oder maschinell gesetzt? Steht die Seite, auf die gelinkt wurde, in irgendeinem erkennbaren Verhältnis zu der linkgebenden Seite? Stellt man bei Google dann fest, dass bei einem Set an Spamseiten ein bestimmtes Linkmuster gehäuft und mit hoher Wahrscheinlichkeit auftritt, kann man damit beginnen, einen Filter zu bauen. Bringt man diesen Filter anschließend in einem der Datencenter (Google hat dem Vernehmen nach mittlerweile über 200 solcher Datencenter in Fußballfeldgröße) zum Testen zur Anwendung, stellt man nicht selten fest, dass damit auch „ehrliche“ und nützliche Webseiten bzw. Ergebnisse weggefiltert würden, weil diese Seiten aus Zufall oder z. B. organisationsimmanent die gleichen oder ähnliche Muster aufweisen. Das Team muss also wieder ran und den Filter immer und immer wieder verfeinern, bis die Kollateralschäden auf ein Minimum reduziert werden. Dies ist keine leichte Aufgabe, denn SPAM-Filter basieren in ihrer Fülle schon lange nicht mehr auf einfachen Regeln mit nur wenigen Parametern. Es sind im Gegenteil oft recht komplexe und teilweise ineinander verschachtelte „Wenn-dann“-Bedingungen, bei denen prozentual oder über Schwellenwerte einzelne Punktwerte zu einer Gesamtsumme – besser: „Gesamtwahrscheinlichkeit für SPAM“ – aufaddiert werden. Übersteigt dieser Wert bei einem Filter eine gewisse Grenze, die freilich auch immer wieder nachjustiert wird, werden abgestufte Strafen (Penaltys) für einzelne (!) Keyword-Rankings, einzelne Seiten, Verzeichnisse oder die ganze Domain verhängt. Wenn man jetzt noch im Kopf behält, dass allein letztes Jahr bei Google etwa 500 neue Filter zur Anwendung kamen, bekommt man annähernd einen Eindruck, wie komplex erst das Zusammenspiel all dieser Filter, deren Zahl mittlerweile sicherlich insgesamt weit in die Tausende gehen dürfte, wirkt. Es wird ja immer wieder gemunkelt, niemand bei Google könne mehr genau sagen, warum eine Seite nun exakt auf Position X oder Y steht. Es ginge vielmehr darum, relevante Seiten nach oben zu bringen und möglichst viel Spam wegzufiltern. Dass die „beste“ Seite ganz oben steht – diesen Anspruch erhebt Google ja nicht einmal.

Es ist kein Geheimnis, dass Google ein Händchen dafür hat, die besten Köpfe weltweit aus Zehntausenden Bewerbungen herauszufiltern oder nach einer bedeutenden Promotion direkt von den Unis zu holen. Und man holt sich nicht nur Informatiker und Mathematiker, sondern z. B. auch Sprachforscher, Statistiker oder augenscheinlich völlig fachfremde Spezialisten. Wenn alle diese klugen und extrem motivierten Köpfe es nicht perfekt hinbekommen, SPAM- oder manipulierte Webseiten aus dem Index zu nehmen – dann bleibt eigentlich nur ein Schluss, nämlich dass es nicht so einfach ist, wie auf den ersten Blick immer vermutet wird. Mit der schieren Masse an Webseiten und Links, die mittlerweile in die Billionen und Billiarden geht, richtig umzugehen, ist am Ende doch anspruchsvoller, als es der eigene, sehr begrenzte Ausschnitt an Wahrnehmung des Webs vermuten lässt.

Der Versuch eines Blicks in Googles Zukunft

„Was würde ich tun, wenn ich Google wäre und fast unbegrenzte Ressourcen zur Verfügung hätte?“ Wenn man sich diese Frage ernsthaft stellt, gehen einem sicherlich viele auf den ersten Blick abgefahrene oder nicht umsetzbare Ideen durch den Kopf. Im Hinblick auf die unglaubliche menschliche und maschinelle Power von Google relativiert sich die Einschätzung „zu abgefahren“ und „nicht umsetzbar“ allerdings oft schnell wieder. Bleiben wir also doch mal in dieser Gedankenwelt. Früher waren Links ein gutes Mittel, um die Suchergebnisse zu verbessern. Ein Link wurde damals in der Regel immer manuell von einem Webmaster gesetzt. Insofern war das Vorhandensein vieler Eingangslinks durchaus ein guter Indikator für „nützliche Seite bzw. Domain“. Heute werden wahrscheinlich die meisten Links halb- oder vollautomatisch gesetzt. Dazu kommt noch, dass es seit vielen Jahren schon kein Geheimnis mehr ist, dass Links positiv auf das Ranking wirken – und daher wird immer mehr gezielter Linkaufbau betrieben.

Google zog nach und berücksichtigte immer stärker die sog. Domainpopularität (von wie vielen unterschiedlichen Domains kommen Links), und als auch dies von den SEOs adaptiert wurde, ging man zur IP-C-Populatität über (aus wie vielen unterschiedlichen IP-Netzen kommen Links). Die Szene reagierte auch darauf und heute gibt jedes SEO-Tool, das etwas auf sich hält, diesen Wert mit aus. Dann ging Google noch tiefer und versucht nun, alle möglichen Beziehungen zwischen Linkgeber und linkempfangender Seite zu ermitteln. Da reicht schon ein gemeinsamer Webmaster-Account, die Verwendung der gleichen E-Mail-Adresse oder eine auffällige Kreuz- oder Kreisverlinkung aus, damit Google erkennt: Aha, man kennt sich zumindest! Und schon wird diesen Links nur noch ein verminderter Wert zugerechnet. Fazit: Man muss weiter weg von der Dominanz von Verlinkungsgraphen und braucht andere Signale, die nicht so leicht zu beeinflussen (sprich: faken) sind. Zum einen hat man durch den eigenen Browser und die Toolbar schon ein wichtiges Signal zur Verfügung: die Besuchsfrequenzen und die Aufenthaltsdauer auf Webseiten. Ist es nicht ein gutes Unterscheidungsmerkmal, wie viele Menschen sich wie oft und wie lange auf einer Site aufhalten? Aber sicher. Auf inhaltlich dünnen und zusammenkopierten Affiliate-Seiten wird wohl niemand lange Zeit investieren, ebenso wenig auf anderen Seiten, die als wenig nützlich erachtet werden. Dieses Signal hat nur einen entscheidenden Nachteil: Es läuft „hinterher“. Erst mal muss eine neue Seite ja irgendwoher Traffic bekommen und meist bekommen andere Seiten, die in den Rankings oben stehen, den Hauptanteil der Besuche ab.

Mit anderen Worten: Wer oben steht, bleibt bezüglich des „Traffic-Signals“ auch erst einmal oben – es sei denn, viele Klickende gehen gleich wieder zu Google zurück, weil sie der Inhalt enttäuscht (die sog. „Boncerate“ ist also zu hoch). Wie soll man denn nun aber bei neuen Seiten schnell genug entscheiden, ob sie gut und nützlich für Suchende sind? Die SEO-Gemeinde glaubt hier –vielleicht zu Recht –, dass Links aus Social-Media-Plattformen ein Signal für guten „neuen“ Content darstellen könnten.

Und jetzt kommt Google+ ins Spiel!

Google braucht zur Entscheidung über „Qualität“ weit mehr dieser sozialen Signale als nur Links oder Likes. Man benötigt, wie oben bereits erwähnt, den kompletten Social Graph: Eine vollständige Einsicht, wer wen kennt, wie lange, wie oft jemand was postet oder verlinkt, wer dies wann per Share weitergibt, ein Plus vergibt oder auch kommentiert. Durch eine algorithmische Auswertung der Kommentare wird bei näherer Betrachtung ein richtiger Schuh daraus. Wie lange sind die Kommentare? Wie viele Kommentare erhält ein Beitrag und von wem? Welche Begriffe werden in einem Kommentar verwendet? Zu abgefahren? Keineswegs! Bei Yahoo! Answers hat man schon vor vielen Jahren festgestellt, dass man die „guten“ Kommentatoren mit etwas Geschick herausrechnen kann. Sie verwenden nämlich in der Regel zum Teil entscheidend andere Begriffe in ihren Erklärungen als im ursprünglichen Post und in den Kommentaren darüber verwendet wurden. Und sie schreiben meist auch etwas mehr Text als ihre Vorgänger. Dazu kommt noch, dass die Postings danach sich nun ebenfalls verändern – wenn eine Frage oder ein Gedanke durch einen guten Kommentar bzw. Kommentator beantwortet wurde. Dies sind sicher noch nicht alle trennscharfen Kriterien, aber wenn ein Algorithmus nicht nur selbstlernend arbeitet, sondern auch immer wieder von den Linguistikexperten der Suchmaschinen zugefüttert wird (z. B. grammatikalische Qualitätsanalysen, Rechtschreib- und Tippfehlerfilter, Schreibstil-und Wortwahl-Analysen, diskriminierungsfreie Analysen über das Bildungsniveau etc.) kommt man hier wohl recht schnell zu einem zuverlässigen Set an Signalen.

Abbildung 4: Stark vereinfacht: Natürlich wirkender Beziehungsgraph bei A und Spamvermutung bei S

Vom PageRank zum Agent Rank?

Somit ist es möglich, Autoren bzw. Accounts in Google+ zu identifizieren, die mit hoher Wahrscheinlichkeit Experten für ein bestimmtes Gebiet sind. Jetzt wird es möglich, diesen Accounts mehr Vertrauen (Trust) zuzuweisen als anderen und sogar den Trust zwischen Accounts hin- und herfließen zu lassen. Bei Webseiten passiert dies ja über Links (Trustfaktor) aller Wahrscheinlichkeit nach schon seit Längerem. Google wird über Google+ erstmalig in die Lage versetzt, einem Account bzw. dem Menschen oder der Organisation dahinter den Faktor Qualität zurechnen zu können. Macht das Sinn? Wenn es um die Bewertung von Links geht, die dieser Account postet, dann sicherlich. Das Fettauge ist aber noch ein ganzes Stück größer, wie gleich zu zeigen ist.

Man kann nämlich über ein bestimmtes Meta-Tag einen Google+ Account mit Websites oder Webseiten „verbinden“. Hierzu gibt Google auch eine gute und ausführliche Anleitung. Bisher haben dies sicher die wenigsten Websitebetreiber getan oder auch nur bemerkt. Dies kann sich allerdings schnell ändern. Es ist durchaus denkbar, dass Google später einmal erzeugten Content eines Experten- oder „Trusted“-Accounts auf Webseiten im Ranking bevorzugt. Warum auch nicht, das wäre nur folgerichtig. Wenn man mit hoher Sicherheit über die Aktivitäten in Google+ festgestellt hat, dass jemand auf einem Gebiet Dinge bzw. Inhalte produziert, die von anderen geschätzt werden – warum dann nicht auch seine erzeugten Inhalte auf verbundenen Webseiten bevorzugt anzeigen? Der Charme bei diesem Social-Signal besteht darin, dass es ganz schwer zu betrügen ist. Über den Social Graph kann Google sehr gut erkennen, ob ein Account nur zum Zweck der Beeinflussung angelegt wurde und nur wenig und immer die gleichen „Freunde“ hat, die sich bei einer maschinellen Analyse schnell als Bots (automatisiert erzeugte Profile) entlarven lassen. Maschinen unterhalten und verhalten sich nun mal völlig anders als echte Menschen und im Vergleich, zumindest heute, was den Content angeht noch völlig verblödet.

Bist du eine Maschine oder lebst du noch?

Dies mag einer der wichtigsten Punkte sein: Man kann jetzt sehr viel eindeutiger Maschinen von echten Menschen trennen! Für Webseiten und Linkbeziehungen gilt dies schon lange nicht mehr und bei Google arbeiten ganze Armadas von Menschen an Algorithmen und Filtern, um Maschinelles von Echtem zu trennen. Google+ legt für Google ein extrem wertvolles Signal offen: Wer erzeugt bzw. steht für guten, qualitativ hochwertigen Content? Spammer werden sich sehr, sehr hart damit tun, wertvolle Google+-Profile zu erzeugen, und wahrscheinlich ist das mit den aktuell verfügbaren Automatisierungstechnologien gar nicht zu machen. Während Foren und Blogs überschwemmt werden mit immer schwerer erkennbaren Bot-Einträgen, entlarven sich diese Bots durch die fehlende soziale und tief gehende „Verankerung“ im Beziehungsgraphen.

Name	Zweck	Ablauf	Typ	Anbieter
CookieConsent	Speichert Ihre Einwilligung zur Verwendung von Cookies.	1 Jahr	HTML	Website
fe_typo_user	Ordnet Ihren Browser einer Session auf dem Server zu. Dies beeinflusst nur die Inhalte, die Sie sehen und wird von uns nicht ausgewertet oder weiterverarbeitet.	Session	HTTP	Website

Name	Zweck	Ablauf	Typ	Anbieter
_gcl_au	Wird von Google AdSense zum Experimentieren mit Werbungseffizienz auf Webseiten verwendet.	3 Monate	HTML	Google
AMP_TOKEN	Enthält einen Token, der verwendet werden kann, um eine Client-ID vom AMP-Client-ID-Dienst abzurufen.	1 Jahr	HTML	Google
_dc_gtm_--property-id--	Wird von DoubleClick (Google Tag Manager) verwendet, um die Besucher nach Alter, Geschlecht oder Interessen zu identifizieren.	2 Jahre	HTML	Google