Screaming Frog ist ein beliebtes Tool, um die eigene Webseite im Bereich der Suchmaschinenoptimierung zu verbessern. Somit ist es bspw. sehr einfach die Verwendung von doppelten Title und Descriptions, oder aber auch nicht gepflegte Links auf Fehlerseiten ausfindig zu machen. Neben diesen Funktionen steckt jedoch noch viel mehr in diesem Tool. Insbesondere neue Funktionen vergrößern die Anwendungsmöglichkeiten innerhalb der Suchmaschinenoptimierung um ein Vielfaches. In diesem Leitfaden erhalten Sie verschiedene Anwendungsmöglichkeiten aus der Praxis, die zeigen sollen was mit Screaming Frog möglich ist, sowie Denkanstöße um eigene Anwendungsmöglichkeiten austesten zu können.
Screaming Frog ist ein sogenanntes Crawling Tool, welches sich als Programm bequem auf Windows und Mac installieren lässt. Durch seine einfache Bedienung zählt es zu einer der beliebtesten Tools im Bereich der Suchmaschinenoptimierung. Insbesondere die Neuerungen in 2015 haben die Möglichkeiten mit Screaming Frog und deren Beliebtheit deutlich gesteigert. Man kann komplette Content und Technical Audits der eigenen Webseite ohne viel Aufwand durchführen. In der Basisversion lassen sich 500 URLs kostenlos analysieren, für größere Webseiten sollte auf die kostengünstige Pro-Version zurückgegriffen werden.
Die Entwickler von Screaming Frog waren 2015 mehr als fleißig. Immer wieder gab es größere Updates mit neuen Funktionen, die es wirklich in sich haben. Folgende drei Funktionen sollten auf jeden Fall genannt und näher vorgestellt werden:
Die drei näher beschriebenen Funktionen sollten nicht unterschätzt werden. Sie eröffnen neue Anwendungs-möglichkeiten und lassen sich beliebig miteinander in Verbindung setzen.
Die wichtigsten Funktionen innerhalb von Screaming Frog wurden bereits vorgestellt, nun geht es an die Umsetzung und die Vorstellung einiger Anwendungsmöglichkeiten „Out of the Box“. Die vorgestellten Anwendungsmöglichkeiten können direkt für die eigene Webseite nachgemacht werden und sollen zugleich Denkanstoß für eigene Anwendungsideen mit diesem Tool sein.
Indexierungskontrolle mit Screaming Frog
Die Indexkontrolle lässt sich als ein elementarer Baustein einer guten Suchmaschinenoptimierung bezeichnen. Nur wenn man die Kontrolle über die Indexierung seiner eigenen Webseite erlangt, hat man Einfluss, welche Seiten Google zur Bewertung der Webseite heranzieht und hat überhaupt die Möglichkeit, mit neuen Landingpages zu ranken und Umsatz zu erzielen.
Die einfachste Möglichkeit Kontrolle über die Indexierung zu erhalten ist der Sitemap Index über die Google Search Console. Man sendet XML Sitemaps mit allen wichtigen bzw. umsatzrelevanten Seiten an Google und bittet die Suchmaschine, diese Seiten in den Index aufzunehmen. Doch genau dort entstehen die ersten Probleme: Nicht selten ist es so, dass Google nur einen Bruchteil der geforderten Inhalte in den Index aufnimmt.
Dies ist vor allem bei Online Shops häufig ein großer Umsatz Killer. Jede Seite eines Online Shops, die sich im Index befindet, hat die Möglichkeit Traffic zu generieren, der wiederum Umsatz generiert. Sind nun 20% eines Online Shops überhaupt nicht indexiert, kann sich der Betreiber eines Online Shops relativ schnell ausrechnen, was hier an Umsatz verloren geht. Daher sollte das Hauptziel sein, alle umsatzrelevanten Seiten in den Index zu bekommen.
Nach dem Hochladen einer XML Sitemap in die Google Search Console zeigt Google an, wie viele Unterseiten man gerne indexiert haben will und wie viele Unterseiten Google davon tatsächlich indexiert hat.
Bei dem oberen Beispiel kann man sehr gut erkennen, dass von 79.466 Seiten nur 52.643 Seiten indexiert wurden. Diese Differenz von eingereichten zu nicht indexierten Seiten ist keine Seltenheit, wenn man sich das erste Mal mit dem Thema Sitemap Indexierung auseinandersetzt und bietet damit ein großes Potenzial bei der Optimierung.
Warum ist diese Differenz überhaupt gegeben und was kann man dagegen tun? Es gibt insgesamt zwei Gründe für den Unterschied von eingereichten zu indexierten Seiten. Der Hauptgrund liegt meist an der XML Sitemap direkt:
Fehler innerhalb der XML Sitemap mit Hilfe von Screaming Frog finden
Nur wenige Webseiten können von sich behaupten, dass die Sitemap zu 100% sauber ist. Nicht selten werden mit Hilfe der Sitemap bei Google Seiten eingereicht, welche am Ende überhaupt nicht indexiert werden können. Die Gründe dafür können bspw. Folgende sein:
Um die oben genannten Punkte zu vermeiden, ist es erforderlich die eigene XML Sitemap zu kontrollieren und grundlegend zu säubern. Genau hier kann Screaming Frog ansetzen und eine große Unterstützung leisten. Mit Hilfe der Upload List Funktion können wir unsere XML Sitemap direkt in Screaming Frog importieren und sofort mit dem Crawling jeder einzelnen Unterseite beginnen. Je nach Größe der Sitemap erhält man in Kürze eine komplette Auswertung zu jeder Unterseite, welche in der Sitemap enthalten ist.
Welche Unterseiten sind für Google überhaupt erreichbar – Innerhalb des Reiters Response Codes erhält man zu jeder Seite den dazugehörigen HTTP Statuscode.
In Summe erhält man eine Auflistung folgender Informationen:
Dies sind eine Menge an Informationen die Screaming Frog innerhalb kürzester Zeit bereitstellen kann und wiederum eine Menge an Gründen, warum Google die Seiten einer Sitemap überhaupt nicht indexieren kann. Nach der Erhebung aller Statuscodes sollte man demnach Schritte einleiten, genau diese Unterseiten dauerhaft aus der Sitemap zu entfernen.
Welche Seiten dürfen durch die Noindex Anweisung von Google überhaupt nicht indexiert werden – Innerhalb des Reiters Directives kann man den Filter Noindex auswählen und erhält alle Seiten, welche auf Noindex gesetzt wurden.
Auch hier macht es keinen Sinn, Google über die Sitemap Inhalte zu zeigen, die dann wiederum für Google überhaupt nicht indexiert werden dürfen. Auch hier sollte man Schritte einleiten, genau diese Unterseiten dauerhaft aus der Sitemap zu entfernen.
Welche Seiten verweisen per Canonical Tag auf eine andere Seite – Innerhalb des Reiters Directives kann man den Filter Canonicalised auswählen und erhält alle Seiten, welche per Canonical Tag auf eine andere Seite verweisen.
Immer wenn von einer Seite ein Canonical auf eine andere Seite und nicht auf sich selbst zeigt, sollte diese Seite dauerhaft aus der XML Sitemap verschwinden. Ansonsten würde man Google nur Seiten zur Indexierung anbieten, welche sich selbst wiederum gar nicht indexieren lassen.
Anhand der letzten drei Abfragen über Screaming Frog sieht man, welch hohes Fehlerpotenzial bei einer XML Sitemap besteht aber auch wie einfach die Fehler innerhalb einer Sitemap genau mit diesem Tool auffindbar sind.
Konnten sämtliche Fehler innerhalb einer Sitemap ausfindig gemacht werden und diese wiederum gelöst werden, sprich in Zukunft dauerhaft aus der Sitemap verschwinden, ist man auf einem sehr guten Weg künftig nur noch relevante Inhalte an Google zu senden. Dadurch wird man auch viel weniger Differenz zwischen den eingereichten und indexierten Seiten über die Search Console erhalten.
Ein weiterer Grund für das nicht Indexieren von Seiten innerhalb der eingereichten Sitemap liegt jedoch nicht an der Sitemap direkt, sondern an mangelnden qualitativen Inhalten selbst. Bspw. kann es sein, dass Google folgende Seiten nicht indexiert:
All diese Gründe kann man mit Hilfe von Screaming Frog für die eigenen Sitemap Inhalte analysieren. Zunächst sollten innerhalb von Screaming Frog alle bisher ermittelten Fehler wie bspw. Statuscodes direkt gelöscht werden (Rechte Maustaste – Remove). Danach kann man diese Liste als Excel Datei exportieren und erhält dadurch eine Liste aller Seiten, welche in Zukunft in der finalen Sitemap enthalten sein sollten.
Sitemap mit Google Index abgleichen und Gründe für nicht indexierte Seiten finden
Interessant ist nun herauszufinden, welche Seiten innerhalb dieser Liste bei Google trotzdem nicht indexiert sind und die Gründe hierfür zu analysieren. Über die Search Console erhält man zwar den Anteil der Seiten, welche nicht indexiert wurden, man erhält jedoch nicht die Seiten selbst. Daher muss man sich zu helfen wissen. Bei kleineren Seiten kann man sich auch hier Screaming Frog zur Hilfe nehmen.
Will man herausfinden, ob eine Seite bei Google im Index enthalten ist, kann man neben einer site:-Abfrage auch die Existenz des Google Webcaches abfragen. Möchte man bspw. überprüfen ob die Startseite der WebsiteBoosting im Google Cache enthalten ist, genügt folgende Abfrage:
http://webcache.googleusercontent.com/search?q=cache:https://www.websiteboosting.com/
Besteht zu dieser Abfrage eine URL, kann man auch davon ausgehen dass genau diese Seite im Index enthalten ist. Wenn nicht, gelangt man auf eine Fehlerseite. Genau dieses Wissen können wir uns wiederum zu Nutzen machen, indem wir innerhalb von Excel sämtliche Seiten innerhalb unserer Liste wie folgt verketten:
http://webcache.googleusercontent.com/search?q=cache:[URL1]
http://webcache.googleusercontent.com/search?q=cache:[URL2]
http://webcache.googleusercontent.com/search?q=cache:[URL3]
Daraus erhält man eine Liste, welche über die schon erwähnte Screaming Frog Import Funktion in das Tool eingespielt werden kann.
Nach dem Crawling der einzelnen Seiten erhält man über den Status Code Feedback, ob zu den jeweiligen Seiten eine Google Webcache Seite existiert (Status Code 200) oder ob keine Google Webcache Seite existiert (Status Code 400) und kann diese Informationen direkt auf die Indexierung der Seiten bei Google übertragen.
Da Google automatisierte Abfragen nach einiger Zeit einen Riegel in Form einer Captcha Abfrage vorschiebt, sollte man die Geschwindigkeit der maximal abgefragten URLs pro Sekunde auf den minimalsten Wert von 0,1 herabsetzen. Dies kann unter Configuration – Speed vorgenommen werden.
Bei größeren Seiten empfiehlt es sich jedoch spezielle Tools für die Google Indexierungsabfrage zu verwenden, welche die Verwendung von unterschiedlichen Proxys ermöglichen. Hier kann bspw. auf das Tool URL Profiler zurückgegriffen werden → http://urlprofiler.com/.
Am Ende sollte man somit eine Liste aller nicht indexierten Seiten erhalten und somit weiss man ganz genau, welche Seiten aus der XML Sitemap bisher noch nicht im Google Index zu finden sind. Wenn man nun diese Liste mit einem Crawl der Site abgleicht, erhält man wertvolle Informationen über diese Seiten.
Folgende Gründe für eine nicht-Indexierung kann man bspw. aus einem Screaming Frog Crawl herauslesen:
Im ersten Schritt wurde gezeigt, wie man die eigene Sitemap zunächst auf Funktionalität überprüft und Seiten identifiziert, welche innerhalb der Sitemap nichts zu suchen haben. Im zweiten Schritt konnte man sehen, wie man die Seiten ermittelt, welche zwar indexiert werden können, zum aktuellen Zeitpunkt aber nicht im Index enthalten sind. Im letzten Schritt konnte man nun noch die Ursachen für die nicht indexierten Seiten ermitteln und kann nun daran arbeiten, diese Seiten dementsprechend zu verbessern, damit Google in Zukunft einen möglichst hohen Anteil an eingereichten Seiten auch indexiert.
Duplicate Content finden mit Screaming Frog
Bei Duplicate Content handelt es sich um gleiche bzw. sehr ähnliche Inhalte, die unter verschiedenen URLs zu finden sind. Grob kann man dabei zwischen externen und internen Duplicate Content unterscheiden.
Um Duplicate Content zu umgehen, kann man das Meta Robots Tag Noindex, das Canonical Tag oder aber auch die robots.txt einsetzen. Zugleich besteht die Möglichkeit, die betroffenen Seiten so zu ändern, dass Google diese als einzigartig wahrnimmt (Beispielsweise durch einzigartigen Content).
Schwieriger gestaltet sich jedoch erst einmal das Auffinden von Duplicate Content auf der eigenen Seite. Ein Indiz für doppelte Inhalte sind doppelte Title und Descriptions. Zum Teil kommt man auch über die Search Console unter HTML Verbesserungen an diese Informationen.
Das Problem bei der Search Console ist jedoch, dass die Daten zum einen nicht vollständig und zum anderen nicht aktuell sind. Um einen vollständigen Stand aller doppelten Meta Tags zu erhalten, sollte man daher Screaming Frog bzw. ein Crawlingtool nutzen.
Wichtig hierbei ist die Einstellung, dass Screaming Frog nur Seiten crawlt, welche auch von Google indexiert werden können. Seiten, welche bspw. auf Noindex sind, könnten theoretisch Duplicate Content enthalten, werden jedoch von Google nicht indexiert bzw. nicht bewertet und sind daher auch kein Problem. Die Einstellung (siehe Abb. 8) ist unter Configuration – Spider im Reiter Advanced zu finden.
Nachdem diese Einstellung getätigt wurde, kann man Screaming Frog auf die Reise schicken und den indexierbaren Webseiten Inhalt crawlen lassen. Somit erhält man umfassende Daten und kann genau ablesen, welche Title und Descriptions zum aktuellen Zeitpunkt doppelt vorkommen. Die Informationen über doppelte Title erhält man bspw. in dem Reiter Page Titles unter dem Filter Duplicate.
Eine weitere Möglichkeit mit Hilfe von Screaming Frog Duplicate Content identifizieren zu können ist über den sogenannten Hash Wert. Screaming Frog ermittelt für jede Seite einen Hash Wert aus dem vorhandenen Quellcode. Sind mehrere Seiten komplett identisch zueinander, ist auch der Hash Wert gleich. Für die Ermittlung von doppelten Inhalten müssen in der Spalte Hash also nur noch die doppelten Werte ermittelt werden.
Durch die beiden oben genannten Methoden lassen sich Inhalte wie Filterseiten oder Paginierungsseiten innerhalb einer Webseite finden. Aufgrund immer wiederkehrender Muster sind hierbei meist schon einige Beispiele ausreichend, um diese Art von Duplicate Content zu finden. Bei Online Shops kann es zudem aufgrund Mehrfachverwendung von Produkttexten zu zusätzlichem internen Duplicate Content kommen.
Mit Hilfe von Screaming Frog und der Custom Extraction Funktion lassen sich Inhalte aus der Webseite komplett extrahieren und im Anschluss auf Dopplungen untersuchen. Möchten man sich bspw. alle Produkttexte ausgeben lassen, um diese danach auf Dopplungen zu überprüfen, ist diese Funktion wie geschaffen.
Um die Custom Extraction Funktion nutzen zu können, ist der CSS Path oder der XPath genau der Stelle notwendig, an welcher sich der Content befindet. Dabei sollte man wie folgt vorgehen: Zunächst einen beliebigen Produktext markieren und mit der rechten Maustaste anklicken. Danach kann man über Chrome die Funktion Copy CSS Path auswählen.
Schon hat man den CSS Path im Zwischenspeicher und kann diesen weiter verwenden. Unter Configuration – Custom – Extraction wählt man nun einen beliebigen Namen für die jeweilige Spalte aus. Zudem wählt man CSSPath aus und fügt den Code aus dem Zwischenspeicher in das dazugehörige Feld ein. In der darauffolgenden Auswahlfunktion wählt man mit Extract Text aus, dass man nur den Text ohne HTML Elemente extrahieren will.
Nach dem Crawl erhält man nun in einer neuen Spalte sämtliche Produkttexte des jeweiligen Online Shops und kann diese bspw. mit Excel bequem auf doppelte Werte überprüfen.
Mit Hilfe von Screaming Frog lassen sich Quellen für Duplicate Content schnell und einfach ermitteln. Mit Hilfe doppelter Title und Descriptions kann man insbesondere Muster für Duplicate Content finden. Komplett identische Inhalte lassen sich über den Hash Wert ermitteln. Produkttexte in Online Shops lassen sich hingegen komplett extrahieren und danach auf doppelte Verwendung überprüfen.
Relaunch meistern mit Screaming Frog
Ein Webseiten-Relaunch ist aus SEO Sicht stets mit wichtigen Überlegungen und Entscheidungen verbunden, insbesondere wenn sich die komplette URL Struktur ändern soll. Regelmäßig kann man hierbei von Webseiten lesen, die große Sichtbarkeitsverluste hinnehmen mussten aufgrund des – aus SEO Sicht – gescheiterten Relaunches.
Sowohl zur Vorbereitung als auch nach dem Relaunch können wir mit Hilfe von Screaming Frog die notwendigen Schritte vollziehen.
Vor dem Relaunch – Zunächst ist es wichtig vor dem Relaunch einen sogenannten Redirect Plan zu erstellen. Ändert sich bspw. die komplette URL Struktur müssen wir sofort bei Livegang den Google Bot, sowie den User mit Hilfe von 301 Redirects auf das neue Ziel weiterleiten. Ansonsten würden alte URLs einfach ins Leere verlaufen und zudem wären sämtliche Rankings über Google von heute auf morgen verschwunden. Auch ärgerlich ist es, wenn Unterseiten hochwertige externe Links aufgebaut haben und bei einem Relaunch einfach komplett vergessen werden.
Bei einem Redirect Plan hilft uns Screaming Frog mit Hilfe eines Gesamtcrawls der Seite, alle relevanten und aktuell vorhandenen Unterseiten zu erfassen. Hier sollte wieder darauf geachtet werden, dass nur Seiten gecrawlt werden, welche auch von Google indiziert werden können (siehe Abb. 8). Nach einem Export dieser Daten haben wir damit bereits die Vorlage für unseren Redirect Plan und können entscheiden, welche Seiten per 301 Redirect in Zukunft wohin zeigen sollen.
Sinnvoll vor einem Relaunch ist es auch, sich ein sogenanntes Basic Onpage SEO Backup zu machen. Darunter versteht man das Sichern aller relevanten Onpage Faktoren wie bspw. Title, Descriptions, Content sowie Meta Robots Informationen und Canonical Tags. Bis auf den Content haben wir bereits alle Daten innerhalb unseres Gesamt Crawls der Seite, welche wir uns beliebig exportieren können. Zudem können wir mit Hilfe der Custom Extraction Funktion bspw. die Kategorietexte eines Online Shops extrahieren und bei einem Verlust innerhalb des Relaunches sofort wieder einbauen.
Wie man Inhalte mit Hilfe der Cusom Extraction extrahieren kann, wurde bereits im Bereich „Duplicate Content finden“ gezeigt (siehe Abb. 11-12). Um auch vorhandene HTML Elemente wie H1-Tags oder auch interne Links zu erhalten ist es notwendig anstatt Extract Text die Auswahlfunktion Extract HTML Element zu tätigen.
Nach dem Relaunch – Direkt nach dem Livegang der neuen URL Struktur sollte man sofort aktiv werden, um mögliche Fehlerquellen aufzuspüren und möglichst schnell zu bereinigen. Mit Hilfe des Redirect Plans kann man einen Abgleich machen, ob alle Weiterleitungen korrekt eingerichtet wurden.
Durch einen Import in Screaming Frog wird das Crawling der alten URLs gestartet. Erhält man nun bei allen alten URLs unter dem Reiter Response Codes einen 301 Statuscode zurück, weiß man dass alle Weiterleitungen korrekt gepflegt wurden. Erscheinen hingegen 404 Statuscodes müssen hier die geplanten Weiterleitungen nachgepflegt werden, um keine Rankings zu verlieren.
Auch ein neuer Gesamt Crawl der Seite schadet nicht. Hier kann man insbesondere noch falsch gepflegte interne Verlinkungen aufspüren, welche bspw. auf eine 404 Fehlerseite verweisen.
Für das Webcontrolling ist es wichtig, dass nach dem Relaunch reibungslos alle Daten auflaufen und keine Lücke entsteht. So eine Datenlücke kann bspw. entstehen, wenn bei einem Relaunch aus Versehen auf einzelnen Seiten oder Templates die Einbindung des Trackingcodes fehlt. Mit Hilfe der Custom Search kann man Screaming Frog auf die Reise schicken und den Auftrag mitgeben, dass das Tool alle Unterseiten auf den vorhandenen Trackingcode untersuchen soll. Somit erhält man eine Auswertung auf welchen Seiten denn der Trackingcode aktuell noch nicht eingebunden ist. Die Einstellung für die Custom Search befindet sich unter Configuration – Custom – Search. Je nachdem, ob man bspw. auf Google Analytics oder dem Google Tag Manger Code untersuchen will, sind verschiedene Codestücke möglich.
Der Filter 1 gibt bspw. alle Seiten aus, welche die Google Tag Manager ID im Quellcode enthalten. Der Filter 2 hingegen das genaue Gegenteil, nämlich alle Seiten bei welchen diese ID nicht im Quellcode enthalten ist.
Screaming Frog unterstützt also sowohl vor dem Relaunch als auch direkt nach dem Relaunch. Beide gezeigten Anwendungsmöglichkeiten sind essentiell für einen sauberen Relaunch aus SEO Sicht und sollten niemals vernachlässigt werden.
Fazit
Die Anwendungsmöglichkeiten mit Screaming Frog sind vielfältig. Funktionen wie die Custom Search und Costom Extraction haben ganz neue Möglichkeiten des Crawlings innerhalb dieses Tools mit sich gebracht. Egal ob für vollständige Content und Technik Audits, für die Verbesserung der XML Sitemap, dem Auffinden von Duplicate Content oder auch zur Unterstützung bei einem Relaunch – der Screaming Frog ist häufig die richtige Alternative und birgt noch unzählige Anwendungsmöglichkeiten in sich. Viel Spaß beim Ausprobieren und viel Erfolg mit dem schreienden Frosch!