Screaming Frog Version 20 – wow!

Mario Fischer

Mario Fischer ist Herausgeber und Chefredakteur der Website Boosting und seit der ersten Stunde des Webs von Optimierungsmöglichkeiten fasziniert. Er berät namhafte Unternehmen aller Größen und Branchen und lehrt im neu gegründeten Studiengang E-Commerce an der Hochschule für angewandte Wissenschaften in Würzburg.

Mehr von diesem Autor Artikel als PDF laden

Der Screaming Frog gehört sicherlich zu den bekanntesten und beliebtesten SEO-Tools weltweit. Seine Kernkompetenz war bisher, Websites zu crawlen und alle Inhalte so aufzubereiten, dass Fehler und Optimierungspotenzial sichtbar werden. Dann kam die Möglichkeit hinzu, über Datenschnittstellen (API) die gefundenen URLs mit weiteren Metriken anzureichern, zum Beispiel direkt aus der Google Search Console oder Google Analytics. Mit der neuen Version 20 ist dem Anbieter ein heftiger Paukenschlag gelungen. Neben einigen anderen neuen Funktionen gibt es jetzt – auch für Nichtprogrammierer – die Möglichkeit, KI-Schnittstellen direkt beim Crawl anzuzapfen. Sie möchten ChatGPT für jede URL einer Domain eine Frage (Prompt) stellen und die Antwort direkt in den Daten speichern lassen? Kein Problem. Und das Beste: Das kann wirklich jeder!

Neben der Möglichkeit, ein eigenes JavaScript einbinden zu können, hat sich auch beim Thema Mobile-Usability einiges getan. Für die Analyse von Begriffen lassen sich jetzt recht einfach sogenannte N-Gramm-Auswertungen erzeugen. Aber auch für das Umweltgewissen hat sich etwas verbessert. Für jede URL wird ab sofort auch der CO₂-Fußabdruck errechnet und ausgegeben.

Mit ChatGPT und Co. crawlen

Die Einbindung von Scripts und bereits fertigen Vorlagen macht es sehr einfach, einem Crawl nun mit einer Vielzahl von nützlichen Informationen anzureichern. Alles, was in ChatGPT oder Google Gemini per Prompt zusammen mit einer URL einzeln per Hand abgefragt werden kann, lässt sich jetzt automatisiert über ein Set oder auch alle Websites einer Domain oder Liste erledigen. Und nicht nur ein einzelner Prompt lässt sich nutzen – bis zu zehn solcher Prompts können parallel hinterlegt werden. Die Möglichkeiten, Fragen bezogen auf eine URL zu stellen, sind extrem vielfältig. Passt das Bild über der Falz zu dem Content? Gib mir eine kurze Zusammenfassung in zwei Sätzen über den Inhalt der Seite! Gibt es Rechtschreibfehler auf der Seite und welche? Oder noch extremer: Fasse mir das Thema dieser Seite mit nur einem Wort zusammen. Letzteres ermöglicht, zu prüfen, ob die thematische Architektur der Domain gut und trennscharf ausgerichtet ist (vergleiche dazu die Ergebnisse aus dem Google-Leak).

Ein weiteres nützliches Beispiel wäre „Prüfe, wie gut der Title der URL mit dem Content der Seite übereinstimmt, und mache einen Vorschlag für einen besseren Title. Formuliere den Title so, dass er zum Klicken anregt!“.

Um beispielsweise ChatGPT Antworten beim Crawl zu entlocken, gehen Sie wie folgt vor: Zunächst muss bei „Crawl-Konfiguration“ unter Spider und dann Rendering in dem Pull-down-Menü „JavaScript“ aktiviert werden (Abbildung 1).

Abbildung 1: Vorbereitungsarbeiten – JavaScript aktivieren

Gut zu wissen:

Ist sehr viel Content auf Websites, kann es passieren, dass man eine Fehlermeldung als Ergebnis bekommt. Das hat in der Regel damit zu tun, dass Google Gemini derzeit nur 3.071 Eingabetokens akzeptiert, während OpenAI mit ChatGPT 8.191 solcher Tokens akzeptiert. Die Google-KI wirft also viel früher die Füße in die Luft als ChatGPT. Umgekehrt liegen die Antworten von Gemini natürlich näher an dem, was die Suchmaschine für die Ranking-Algorithmen vermutet. Natürlich deckt sich das nicht eins zu eins, aber da die KIs aus dem gleichen Haus kommen, liegt die Vermutung einer höheren Übereinstimmung natürlich nahe.

Weiterhin muss in der Konfiguration unter „Extraktion“ rechts unten „HTML speichern“ und „Gerendertes HTML speichern“ aktiviert werden (Abbildung 2). Das war es auch schon mit den Einstellungen.

Abbildung 2: Das gerenderte HTML muss auch gespeichert werden.

Bevor der Crawl gestartet wird, hinterlegt man dann die entsprechenden Scripts, die ChatGPT oder Google Gemini nutzen. Dazu gibt es eine bereits mitgelieferte Bibliothek, die den Einstieg sehr erleichtert. Unter Crawl-Konfiguration unten beim Punkt „Eigenes JavaScript“ (Abbildung 3, Ziffer 1) ruft man die Maske zur Eingabe der einzelnen Scripts auf. Über die Schaltfläche „Aus Bibliothek hinzufügen“ (Abbildung 3, Ziffer 2) findet man dann alle hinterlegten Scripts zur Übernahme. Oben (Abbildung 3, Ziffer 3) findet man die Möglichkeit, zwischen der Systembibliothek „System“ und „Benutzer“ zu wählen. Unter Benutzer findet man später eigene Scripts, die man nach einer individuellen Anpassung mit eigenem Namen abgelegt hat. Ein Klick auf den Namen für ein Script befördert es in eine der zehn Zeilen (Abbildung 3, Ziffer 4). Die Scripts sind mit sprechenden Namen und dem jeweiligen KI-Modell benannt, sodass die Auswahl einfach ist.

Abbildung 3: Das Tool hält praktischerweise bereits ein fertiges Set von Abfragen bereit.

Wählen Sie zum Ausprobieren zum Beispiel „(ChatGPT) Intent of Page“ aus und öffnen Sie das so hinzugefügte Script per Button „JS“ am rechten Rand der Zeile mit dem Script-Eintrag. Anschließend öffnet sich der Script-Editor, wie in Abbildung 4 zu sehen ist. Damit man die Datenschnittstellen (API) auch außerhalb des Webinterfaces der KI-Anbieter abrufen kann, braucht man einen sogenannten API-Key und die jeweilige Bezahlversion des Tools. Für ChatGPT loggt man sich dazu auf der Website ein und klickt auf den angelegten Accountnamen beziehungsweise das Logo rechts oben. Unter „Your Profile“ in den Settings gibt es einen Punkt „User API keys“. Dort lässt sich via „Create new secret key“ ein solcher Schlüssel beziehungsweise eine längere Buchstaben-Zahlenfolge erzeugen. Den kopiert man wie in Abbildung 4 gezeigt in die Zeile mit „const OPENAI_API_KEY“ zwischen die beiden einfachen Anführungszeichen. Einen Key für Gemini von Google gibt es unter ai.google.dev/gemini-api/docs/api-key?hl=de.

Abfragen kosten Geld

Beachten Sie, dass jede Abfrage bei den gängigen KI-Tools per API sogenannte Tokens verbraucht und in Rechnung gestellt wird. Informationen dazu und entsprechende Auswertungen für Abfragen findet man auf den Seiten der Anbieter. Die Kosten sind allerdings vergleichsweise wirklich extrem niedrig und liegen in der Regel im Centbereich, sofern man nicht exzessiv und ständig crawlt. Zudem kann man das Budget sicherheitshalber auch deckeln, damit bestimmte Beträge nicht überschritten werden. Sofern Sie die APIs nur für die eigene Website nutzen und vernünftige Prompts verwenden, bleiben die monatlichen Kosten tatsächlich nicht selten unter einem Euro. Und selbst wenn der Betrag ansteigt, bekommt man Informationen auf keinem Weg günstiger und so schnell – vorausgesetzt, es steckt ein echtes und nutzbares Businessinteresse dahinter.

Bevor man einen kompletten Crawl startet, testet man das Script am besten vorab. Das geht ebenfalls recht einfach. Schreiben Sie eine gültige URL in das Feld rechts unten (Abbildung 4) und klicken Sie auf „Test“. Das Script wird jetzt abgearbeitet und nach kurzer Zeit erscheint im rechten Fenster „JavaScript-Tester“ das Ergebnis. In diesem Fall nur die kurze Antwort auf die Frage nach dem Intent der URL: Informational (in Abbildung 4 gelb markiert). Testen Sie am besten immer alle verwendeten Scripts vorab, das erspart unnötige Crawls, sofern etwas nicht richtig funktionieren sollte. Ließe man einen Crawl jetzt laufen, fände man in den Ergebnistabellen des Screaming Frog eine weitere Spalte, in der für jede URL die Einschätzung für die Ausrichtung jeder URL abgelegt wurde.

Tipp

Es lohnt sich durchaus, die beiden KIs von OpenAI (ChatGPT) und Google (Gemini) mit den gleichen Fragen gegeneinander antreten zu lassen. Die Ergebnisse sind nämlich bei Weitem nicht immer deckungsgleich! Für SEO-Fragen lohnt es sich vielleicht eher, die maschinellen Einschätzungen von Google zu verwenden, da die Suchmaschine natürlich bei ihren automatisierten Tools ähnlicher „urteilt“ als eine völlig anders funktionierende KI wie die von OpenAI.

Abbildung 4: Der Script-Editor sieht auf den ersten Blick kompliziert aus, ist er aber nicht.

Unter der Zeile, in die man den API-Key einträgt, findet man den Eintrag „const question“. Dort steht die Frage, die an das KI-Tool übergeben wird – genau genommen der Prompt. Diesen Prompt können Sie jederzeit überschreiben, wie in Abbildung 5, Ziffer 1 gezeigt wird. Im Beispiel wurde „Für welches Thema steht dieser Text? Gib bitte nur ein Wort als Ergebnis zurück: “ hinterlegt. Der Test für www.websiteboosting.com brachte als Ergebnis „Online-Marketing“ (gelb markiert, Abbildung 5, Ziffer 2). Möchte man dieses nun eigene Script später nochmals verwenden, speichert man es am besten ab (Abbildung 5, Ziffer 3) und vergibt einen sprechenden Namen (Abbildung 5, Ziffer 4). So kann man es jederzeit erneut aufrufen.

Ein weiteres Beispiel: Haben alle Ihre wichtigen Bilder auch wirklich sprechende Alt-Texte auf allen Webseiten? Nein? Der Aufwand, das nachträglich zu editieren, ist zu hoch? Jetzt gibt es keine Ausrede mehr. Der Prompt „Erstelle mir einen kurzen, aussagekräftigen Text für jedes Bild, das noch keinen Alt-Text hinterlegt hat“ wäre ein guter Ausgangspunkt, um sich den optimalen Alt-Texten anzunähern.

Tipp

Falls Sie viele und/oder komplexe KI-Abfragen in einem Crawl machen und viele URLs abfragen, kann es notwendig werden, die Crawl-Geschwindigkeit des Screaming Frog zu reduzieren, damit sich die KIs im Hintergrund nicht verschlucken beziehungsweise die Anfragen nicht zu schnell aufeinanderfolgen und einen Überlauf erzeugen. Eine Anpassung lässt sich unter Crawl-Konfiguration „Geschwindigkeit“ vornehmen. Dort lässt sich auch die gleichzeitige Anzahl („Max. Threads“) an URLs reduzieren.

Abbildung 5: Eigene Prompts hinterlegen? Einfach die Vorlage überschreiben!

Mittlerweile gibt es sogar schon nützliche Scripts, die in Blogs oder Foren von SEO-Experten zur Verfügung gestellt werden. Die lassen sich ganz einfach per Copy-and-paste in die eigene Bibliothek aufnehmen und so entsteht im Lauf der Zeit eine nützliche Sammlung. Die besten Scripts bindet der Anbieter von Screaming Frog mit jeder neuen Unterversion direkt ein, sodass die Systembibliothek ständig erweitert wird. Es lohnt sich also, nach jedem Update hier nachzusehen, was neu verfügbar ist.

Abbildung 6: Nutzen Sie die leere Vorlage für eigene Abfragen

Wer in JavaScript fit ist, kann auch eigene Scripts schreiben und einbinden. So lässt sich prinzipiell unter anderem auch jede Aktion (Klicks, Anmeldungen, Scrollen, Mouseover etc.) auf einer URL ausführen. Einige solcher Aktions-Scripts sind bereits hinterlegt. Das macht auch Informationen einer Seite zugänglich, die bisher beim Crawlen nicht erfasst werden konnten, weil sie zum Beispiel nur bei einem Mouseover dynamisch angezeigt werden.

Wortspiele: N-Gramm-Analysen

Mit N-Grammen zerlegt man Begriffe in Fragmente und hilft, Metriken zu Wortverwendungen zu erstellen. Im Screaming Frog werden sie zur Unterscheidung von Ein- oder Mehrwortphrasen benutzt. Damit lassen sich nach einem Crawl Worthäufigkeiten und Muster analysieren. Eine solche Analyse auf Wort- beziehungsweise Begriffsebene kann sehr nützlich zur Modellierung oder Prüfung einer thematischen Content-Struktur auf semantische Relevanz einzelner Seiten sein. Aber auch einfache Textanalysen für die klassische On-Page-Optimierung lassen sich so durchführen.

Welches wichtige Wort fehlt im Title einer URL oder in verweisenden Linkankern? Welche gleichen Ankertexte sind mit verschiedenen Zielseiten verlinkt? Über Abgleiche mithilfe von N-Grammen lassen sich aber auch Keyword-Lücken finden, indem man die von der Google Search Console abfragbaren Suchworte einbezieht. Verwenden unterschiedliche Seiten bestimmte Keywords zu ähnlich und erzeugen damit die sogenannte Keyword-Kannibalisierung? Welche Keywords verwenden die Mitbewerber im Vergleich zu den eigenen?

Abbildung 7: N-Gramm-Analysen bringen gut nutzbare Optimierungsansätze auf Begriffsebene.

Abbildung 8: Wo werden wichtige Begriffe verwendet? Wo gibt es Keyword-Lücken?

Abbildung 9: Etwas versteckt im Suchfeld findet man umfassende Such- und Filtermöglichkeiten für Begriffe und Begriffsteile. Hier lassen sich auch komplexe Abfragen zusammenstellen (zum Beispiel über RegEx).

CO₂-Fußabdruck und Bewertung

Wer ein schlechtes Umweltgewissen hat, kann sich mit der neuen Version für jede gecrawlte URL den hochgerechneten CO₂-Ausstoß in Milligramm sowie eine einfache Bewertung mit Buchstaben ausgeben lassen. Ideal wäre es, überall den Buchstaben A ausgewiesen zu bekommen. Die meisten Websites werden jedoch wahrscheinlich noch immer deutlich mehr Seiten mit einem E oder F ausgewiesen bekommen. Wer konsequent an der Verringerung des Seitenumfangs und der verlinkten Bilder arbeitet, kann sich über diese Daten recht einfach Vorher-nachher-Abbildungen für Präsentationen erstellen. Summiert man die einzelnen Milligramm über die jährlichen Impressions jeder URL auf, entstehen schnell viele Kilogramm oder gar Tonnen, die man eingespart hat. Tue Gutes und rede darüber. Mit den entsprechenden Daten geht das nun leichter.

Abbildung 10: Pro URL wird der CO2 Ausstoß hochgerechnet und bewertet

Wortvektoren: Embeddings

Den theoretischen Hintergrund von sogenannten Embeddings an dieser Stelle zu erklären, würde bei Weitem den Rahmen sprengen. Wer das Thema in der Website Boosting aufmerksamer verfolgt hat, wird sich über die Möglichkeit der einfachen Generierung von Embeddings freuen. Grob gesagt werden die Wörter einer URL in mathematische Vektoren umgewandelt. Über die sogenannte Cosinus-Ähnlichkeit lassen sich dann sowohl mehrere Seiten thematisch vergleichen als auch Sucheingaben bei Suchmaschinen mit URLs auf eine möglichst hohe Übereinstimmung prüfen. Je ähnlicher solche (komplexen) Wortvektoren sind, desto ähnlicher ist der Inhalt. Um an die begehrten Vektoren beziehungsweise Embeddings zu kommen, musste man bisher programmieren können. Jetzt geht via Screaming Frog eine einfache Abfrage über ein vorgegebenes Script (Abbildung 11). Prinzipiell lassen sich Embeddings auch via ChatGPT erzeugen, für SEO-Zwecke bei Google empfiehlt es sich allerdings, besser Gemini zu nutzen (siehe Erklärung am Rand). Möchte man Keywords beziehungsweise Suchphrasen per Embeddings mit den Embeddings von Seitencontent auf Ähnlichkeit prüfen, sollte man in jedem Fall das gleiche System (Google oder OpenAI) für die Keywords und die URLs verwenden, da solche Systeme unterschiedlich arbeiten. Ein Vergleich ist nur sinnvoll, wenn das gleiche Vektorisierungsmodell genutzt wurde.

Abbildung 11: Embeddings – Content-Vektorisierung über Google Gemini

Mobile Fitness

Zur einfachen Prüfung von Problemen bei der Darstellung von Websites auf Smartphones gibt es in der neuen Version einen neuen Tab, in dem man die von Google Lighthouse gelieferten Metriken anzeigen lassen kann. Angezeigt werden Fehler wie „Viewport Not Set“, „Target Size“, „Content Not Sized Correctly“, „Illegible Font Size“ oder „Mobile Alternate Link“. Die vorgefertigten Berichte wurden entsprechend ergänzt. Um die Daten von Google zu übertragen, muss man über die Konfiguration beziehungsweise den API-Zugang unter „PageSpeed Insights“ bei dem Pull-down-Menü „Quelle“ „Remote“ auswählen und einen Schlüssel für den Zugriff eintragen. Den Schlüssel erhält man von Google kostenlos unter einfach.st/insightkey.

Alternativ kann man unter „Quelle“ auch „Lokal“ auswählen. Dann verbindet sich der Screaming Frog mit dem Chrome-Browser auf dem Computer und nutzt dessen Schnittstelle. Dies verlangsamt den Prozess allerdings deutlich. Eine gute Anleitung für Mobile-Audits auf Englisch findet man direkt auf der Website von Screaming Frog unter einfach.st/frogmobile.

Abbildung 12: Durch die Integration von Lighthouse lassen sich URLs jetzt einfacher hinsichtlich der Darstellung auf Smartphones prüfen (Bild: Screamingfrog.com).

Fazit

Die Möglichkeit, eigene Scripts und somit auch KIs für das Crawling einbinden zu können, stellt sicher einen Quantensprung für den Screaming Frog dar. Ab sofort ist man nicht mehr darauf angewiesen, die durchaus umfangreichen fest implementierten Funktionen zu nutzen, sondern kann beim Abruf von Seiten eigene Daten und Antworten auf Fragen integrieren. Auch Inhalte, die eine Benutzeraktion erfordert haben, lassen sich nun erfassen. Neben dieser Innovation erscheinen die vielen anderen Neuerungen in Version 20 fast nebensächlich – auch wenn sie sicherlich eines zweiten Blicks wert sind.

Eine Jahreslizenz für die neue Version liegt derzeit übrigens bei 239 Euro. Wer bereits eine gültige Lizenz hat, bekommt das Update kostenlos.

Name	Zweck	Ablauf	Typ	Anbieter
CookieConsent	Speichert Ihre Einwilligung zur Verwendung von Cookies.	1 Jahr	HTML	Website
fe_typo_user	Ordnet Ihren Browser einer Session auf dem Server zu. Dies beeinflusst nur die Inhalte, die Sie sehen und wird von uns nicht ausgewertet oder weiterverarbeitet.	Session	HTTP	Website

Name	Zweck	Ablauf	Typ	Anbieter
_gcl_au	Wird von Google AdSense zum Experimentieren mit Werbungseffizienz auf Webseiten verwendet.	3 Monate	HTML	Google
AMP_TOKEN	Enthält einen Token, der verwendet werden kann, um eine Client-ID vom AMP-Client-ID-Dienst abzurufen.	1 Jahr	HTML	Google
_dc_gtm_--property-id--	Wird von DoubleClick (Google Tag Manager) verwendet, um die Besucher nach Alter, Geschlecht oder Interessen zu identifizieren.	2 Jahre	HTML	Google