Die zeitliche Dimension des Linkprofils

Stefan Fischerländer
Stefan Fischerländer

Stefan Fischerländer ist geschäftsführender Gesellschafter der Passauer Digitalagentur Gipfelstolz. Seit dem Jahr 2000 berät er Kunden mit Fokus auf technisches SEO und ist als Entwickler tätig. Mit seinem Theoriewissen und seiner Praxiserfahrung unterstützt er außerdem das SEO-Tool TermLabs.io als Tech-Evangelist.

Mehr von diesem AutorArtikel als PDF laden
Thomas Mindnich
Thomas Mindnich

Thomas Mindnich stieg bereits 1996 in die digitale Welt ein über die Themen AdServer und Affiliate-Marketing und ist seit 2002 geschäftsführender Gesellschafter der ITam GmbH. Thomas berät Kunden zu SEO- und Businessthemen und betreibt als nerdiger Kopf zusammen mit seinem Team TermLabs.io eine Sammlung von Tools für die datengetriebene Content-Arbeit.

Mehr von diesem AutorArtikel als PDF laden

Die aktuellen Google-Updates lenken die Aufmerksamkeit der Suchmaschinenoptimierer verstärkt auf die Zusammensetzung des Linkprofils. Die üblichen Backlinkanalysen beinhalten aber oft nur einfache URL-Listen und übersehen so wichtige Aspekte des zeitlichen Verlaufs. Thomas Mindnich und Stefan Fischerländer haben sich hierzu einmal ausführliche Gedanken gemacht.

Aktuelle Google Penalties als Anlass

Ende Februar stellten viele Webmaster erst einen dramatischen Rankingverlust ihrer wohloptimierten Website fest und fanden wenige Tage später eine Nachricht in den Google-Webmaster-Tools vor. Dort hieß es dann, es seien unnatürliche Backlinks festgestellt worden. Davon aufgeschreckt begannen viele Suchmaschinenoptimierer, sich verstärkt mit den Backlinkprofilen ihrer Sites zu beschäftigen.

Schnell wurde wieder in der Szene diskutiert, wie genau ein möglichst natürliches Linkprofil aussieht und an welchen Durchschnittwerten sich dies festmachen lässt. In den marktüblichen Tools schaut man sich dann gern die Verteilung bestimmter Parameter an und hofft, dass man möglichst nah an den allgemeinen Durchschnittwerten die Nase vorn hat und so auch Google der Webseite ein natürliches Linkprofil attestiert.

So kursieren „normale“ Verhältnisse von Deeplinks zu Startseitenlinks, von Einwort- oder Money-Keywords zu Longtail-Phrasen in Linktexten, Nofollow- zu Follow-Links, Pagerank-Verteilungen und einigen weiteren leicht messbaren und auswertbaren Parametern in der internationalen SEO-Szene.

Mit vorhandenen Daten arbeiten

Unbestritten bilden Links die Basis des Rankingalgorithmus von Google. Dass es auch andere Faktoren und Merkmale für Google gibt, die zum Teil direkt im Zusammenhang mit Links stehen (z. B. nehmen echte Nutzer den Link wahr, gibt es also Traffic über den Link) und einen unterschiedlich hohen Einfluss auf das Ranking in den SERPs haben, sei für die folgenden Überlegungen einmal außer Acht gelassen.

Allerdings müssen wir Suchmaschinenoptimierer schon eingestehen, dass wir sehr gern auf einfach zu messende Parameter in unseren Optimierungsbetrachtungen zurückgreifen. War dies früher der PageRank, den man sich mit entsprechenden Links erkaufen konnte, so ist das heute eher die IP-Popularität, die zur Not über Social-Bookmarks aufgehübscht wird.

Allen diesen Parametern (die ja nicht zu selten auch als Business-KPI herhalten müssen) ist vor allem eines gemein: Sie sind leicht zugänglich! Damit ist gemeint, dass man auch ohne die pure Größe und überragenden Möglichkeiten eines Suchmaschinenbetreibers diese Werte selbst ermitteln kann oder von Toolanbietern zugeliefert bekommt.

Listen statt Analysen

Nachteilig für unsere Analysen wirkt sich nun aber aus, dass es durchaus noch weitere relevante Metriken aus dem Linkkontext gibt, die deutlich schwerer zu erheben sind. So liefern viele Toolanbieter entweder nur unüberschaubare Linklisten oder fassen die Daten nach den einfach zu ermittelnden Parametern wie Linktext oder Nofollow-Attribut zusammen. Damit unterliegen wir bei der Analyse leicht einer Fehleinschätzung, die wir anhand einiger Diagramme zu veranschaulichen versuchen möchten. Als Ausgangssituation betrachten wir eine Website, die bislang gut und „natürlich“ verlinkt wurde. (Wir ersparen uns hier die Definition einer „natürlichen“ Verlinkung, denn von Details abgesehen, sollte jeder SEO eine Vorstellung davon haben, wie die Backlinkstruktur einer Website ohne manipulativen Linkaufbau aussieht.) Damit sind viele Links mit „natürlichen“ Linktexten vorhanden, für gewöhnlich gibt es aber kaum Links mit Money-Keywords. Diese Situation ist in Diagramm 1 dargestellt, wobei jeder blaue Punkt für einen „natürlichen“ Link steht.

Betrachten wir diese Verlinkung durch die Brille eines der üblichen Backlink-Tools, müssen wir die Zeitdimension ausblenden und erhalten eine Darstellung, wie sie Diagramm 2 zeigt. Diese aggregierte Darstellung suggeriert, dass die Website noch viele Links mit Money-Keywords im Linktext vertragen kann. Also legen wir los und bauen nun munter solche SEO-Links auf.

In der aggregierten Ansicht zeigt sich zwar, dass nun das Verhältnis von Money-Keywords zu „natürlichen“ Linktexten nicht mehr so ausgewogen ist wie zuvor, aber wir dürften in der Gesamtschau immer noch im akzeptablen Bereich liegen (Diagramm 3).

Nehmen wir aber nun im Diagramm 4 die Zeitdimension wieder zu unserer Analyse hinzu, fällt sofort ins Auge, dass alle neu gesetzten Links mit Money-Keywords versehen sind. Unsere zuvor getroffene Einschätzung, dass die Website SEO-Links vertragen könne, ist damit hinfällig, denn Google erkennt sofort, dass alle zuletzt aufgebauten Links nur der Rankingmanipulation dienten, ein klarer Verstoß gegen die Google-Richtlinien. Wir lernen somit, dass wir keine „bösen“ Links zwischen den „guten“ Links verstecken können, wenn wir nur auf die aggregierten Daten blicken und die Zeitkomponente außer Acht lassen.

Gesprächige Blogsysteme

Nachdem wir nun überzeugt sind, dass die Zeitkomponente eine gewichtige Rolle in der Linkanalyse spielt, stellt sich sofort die Frage, wie wir an diese Zeitdaten kommen. Für rein statische Seiten könnten wir den Last-Modified-Header der Serverantwort auswerten – doch wie viele Websites gibt es, die noch mit statischen HTML-Seiten arbeiten? Der Brute-Force-Ansatz wäre, in sehr kurzen Abständen (zum Beispiel täglich) das ganze Web abzucrawlen. Doch dies erforderte einen gewaltigen Hardware- und Trafficaufwand und wäre keineswegs praktikabel.

Wir benötigen also eine Funktion, die uns mitteilt, wenn irgendwo im Web eine neue Seite erscheint. Und in der Tat gibt es eine solche Funktion bereits seit mehr als zehn Jahren: Blog-Systeme setzen automatisiert im Hintergrund einen sogenannten Update-Ping an einen (einstellbaren) zentralen Server ab, sobald ein Artikel veröffentlicht oder geändert wird. In der Standardinstallation von Wordpress ist dies Pingomatic (http://pingomatic.com), ein Service, der die Update-Pings weiterverteilt und anderen Diensten zur Verfügung stellt. Zwar erhalten wir so nur die Aktualisierungen von Sites, die auf Blogsystemen laufen, aber das ist mehr, als wir zunächst vermuteten. Neben „echten“ Blogs laufen viele Unternehmenssites, aber auch klassische Linkbuilding-Projekte wie Artikelverzeichnisse oder Bookmark-Dienste auf Blogsoftware. Zudem setzen auch eine ganze Reihe von Foren oder Zeitungswebsites Update-Pings ab.

Ein solcher Update-Ping enthält lediglich die URL einer Website, die von sich behauptet, neue Inhalte zu haben. Um diese neuen Inhalte zu erhalten, muss man die angegebene URL besuchen und die neuen Inhalte selbst finden. Da fast immer ein RSS-Feed auf pingenden Websites bereitgestellt wird, lassen sich aber die neuen Inhalte schnell entdecken. Auf unserem Testsystem itam.net (www.itam.net) brauchen wir selten länger als fünfzehn Minuten, bis wir den Inhalt und die Links einer neu erstellten oder aktualisierten Seite in der Datenbank gespeichert haben. Schneller sind lediglich die diversen Googlebots, die meist schon nach wenigen Sekunden auftauchen. Einen Blick in eine derartige Datenbank sehen Sie in Abbildung 1.

Natürlich greift auch Google längst auf diese Ping-Daten zu und kann damit viele Analysen durchführen. Da eine neue Seite sofort nach Veröffentlichung gecrawlt wird, lassen sich beispielsweise später hinzugekommene Links leicht identifizieren. Die gängige Praxis, thematisch passende Blogbeiträge zu suchen und dort vom Blogbetreiber einen Link unterbringen zu lassen, kann Google also problemlos erkennen. Umgekehrt wird Google feststellen, ob etwa als Blogkommentare gesetzte Links vom Betreiber wieder entfernt wurden. Das ist bedeutend, schließlich sind gelöschte Links ein besonders drastisches Signal, dass dieser Link unerwünscht war. Zudem lassen sich site-wide gesetzte Links leicht erkennen, ohne dass auch nur eine Zeile HTML-Code geparst (d. h. maschinell analysiert) werden müsste: Diese Links fallen schlicht und ergreifend durch ihren identischen Linktext und das stets gleiche Linkziel auf.

Diese nicht immer gewollte Transparenz im Linkbuilding wird noch dadurch vergrößert, dass viele professionelle Linknetze auf Blogsystemen, meist auf Wordpress, laufen. In den letzten Jahren gab es kaum eine SEO-Konferenz, auf der nicht wenigstens ein Vortrag zeigte, wie sich mit Wordpress eine ganze Armada an Linktausch-Blogs aufsetzen lässt. Das bedeutet aber nicht weniger als die mehr oder weniger komplette Transparenz der klassischen Linkkauf-Ökonomie!

Real-Time-Konkurrenzanalyse

Doch nicht nur Linkkauf wird transparent, auch weitere Linkbuilding-Strategien sind leicht zu überwachen. So zeigt ein Blick auf die aktuell gesetzten Backlinks der Konkurrenzsites, welche Keywords diese Konkurrenz derzeit besonders pushen möchte (Abbildung 2). Auch Linkbaits werden so schnell sichtbar und lassen sich eventuell für den eigenen Linkaufbau nutzen. Manchmal ist es sogar möglich, die von der Konkurrenz entdeckte Backlinkquelle ebenfalls anzuzapfen, etwa bei Links, die in einer Forumsdiskussion gesetzt wurden.

Schließlich lassen sich manchmal sogar Strategiewechsel in der Verlinkung einer Website erkennen. In Abbildung 3 sehen Sie eine Website, die vermutlich auf die Google-Updates reagiert hat. Statt simpler Money-Keyword-Verlinkung setzen die dortigen SEOs nun offensichtlich auf längere Linktexte.

Googles trickreiche Zeitangaben

Hier stellt sich die Frage, wie denn Google eigentlich an seine Zeitangaben kommt, die manchmal zu einzelnen Treffern angezeigt werden. Den ersten Verdacht, es handele sich dabei nur um den Crawlzeitpunkt, konnten wir nicht bestätigen. Vielmehr bedient sich Google offenbar fleißig an Datumsangaben im Inhalt der Seite. Deutlich macht dies eine Suche, die auf den 1. Januar 1970 eingeschränkt ist. Dieses Datum entspricht dem Zeitpunkt null in Unix-Systemen und wird bei unsauberer Programmierung oft als Standard-Datum gesetzt, so lange keine anderweitigen Angaben gemacht werden.

"Google bedient sich offenbar fleißig an Datumsangaben im Inhalt einer Seite"

Entsprechend viele Treffer zeigt uns Google für diesen Tag an, wie in Abbildung 4 zu sehen ist. Dass es sich dabei nicht um das Crawldatum handeln kann, ist offensichtlich – wurde doch das Web erst mehr als zwei Jahrzehnte später entwickelt. Und es zeigt, wie schlampig im Web häufig programmiert wird...

Gegenmaßnahmen

Wir haben gezeigt, wie die Update-Pings der Blogs es ermöglichen, extrem zielgenau und sparsam zu crawlen und trotzdem viele Links zeitnah zu finden. Wer nun die dadurch ermöglichte große Transparenz nicht zu schätzen weiß, sollte in seinen Linknetz-Wordpress-Blogs unbedingt den Update-Service ausschalten. Zudem ist ein Blick in die Liste der eingesetzten Plug-ins sinnvoll, denn es gibt noch weitere Mechanismen, die ähnlich wie die Update-Pings funktionieren. So stellt etwas Googles PubSubHubbub (der Name stimmt tatsächlich, zu finden unter einfach.st/pubsub) eine Erweiterung der klassischen RSS-Feeds mit Push-Funktionalität dar. Alle auf wordpress.com gehosteten Blogs etwa informieren bei Änderungen seit 2010 über dieses Protokoll.

Die Zeitdimension ist nur ein Beispiel!

Der Schwerpunkt unserer Betrachtung lag auf der zeitlichen Dimension, die bislang in der Linkanalyse eher vernachlässigt wurde. Doch gelten unsere Mahnungen im Grunde für alle Parameter, mit denen sich ein Link charakterisieren lässt. So haben wir beispielsweise untersucht, welche Websites besonders häufig mit unterschiedlichen Vornamen verlinkt wurden. (Abbildung 5) Dass soziale Netzwerke hier besonders oft vertreten sind, war zu erwarten und ist Ergebnis natürlicher Verlinkung. Aber in unserer Stichprobe, die nur Daten weniger Wochen enthielt, bekam eine Finanzwebsite Links mit 26 verschiedenen Vornamen, deutlich mehr als Twitter oder Facebook. Ein klares Zeichen, dass die dortigen SEOs intensiv auf Blog-Kommentare setzen.

Expertenblick aufs Linkprofil

Bislang haben wir uns mit den relativ einfachen Linkanalysen der SEO-Tools nicht aus Bequemlichkeit zufrieden gegeben, sondern weil tiefere Einblicke zum Verständnis der Google-Rankings kaum nötig waren. Die Update-Orgie der zurückliegenden zwölf Monate macht aber deutlich, dass Google die schier unendlichen Daten seines Linkgraphen immer detaillierter auszuwerten scheint. Das wiederum zwingt Suchmaschinenoptimierer dazu, den Linkaufbau noch stärker zu professionalisieren und damit einhergehend die Anforderungen an die Linkanalyse-Tools nach oben zu schrauben.