Content-Gap-Analyse mit KNIME

Vektor-Embeddings generieren und clustern (Teil zwei)

Rebecca Schwarz

Rebecca Schwarz ist SEO-Consultant bei der get traction GmbH und verantwortet Projekte unterschiedlicher Produktsegmente (News, E-Commerce, B2B). Ihr Arbeitsalltag dreht sich um die Konzeption von SEO-Strategien und die Unterstützung von Kunden im redaktionellen SEO, wie Redaktionsworkshops und Entwicklung von Content-Strategien. Um größere Datenmengen zu verarbeiten und bei wiederkehrenden SEO-Tasks Zeit zu sparen, nutzt sie die Open-Source-Software KNIME und gibt hierzu auch regelmäßig Schulungen. Neben ihrer Rolle als Consultant teilt sie ihr Wissen als Speakerin auf bekannten Konferenzen.

Mehr von dieser Autorin

+ www.websiteboosting.de bei der Google-Suche bevorzugen

In diesem Artikel führt Rebecca Schwarz den KNIME-Workflow aus der letzten Ausgabe #93 wie angekündigt weiter. Dort wurde beschrieben, wie Vektor-Embeddings von Seiteninhalten mithilfe des Screaming Frog generiert werden können. Anschließend wurden die Inhalte aufgrund dieser Embeddings in KNIME geclustert. Um den Workflow nun zu ergänzen, soll jetzt sichtbar gemacht werden, um welche Themen es sich bei den gebildeten Clustern handelt. Dafür wird in den Workflow ein gewünschtes LLM (Large Language Model) angebunden bzw. über eine API angezapft. Im Workflow werden die Informationen der verschiedenen Cluster in einen Prompt eingebunden und an das LLM übergeben. Als Antwort gibt das LLM je ein Thema für jedes Cluster zurück. Das hilft, zu erkennen, wie eine KI die einzelnen Seiten eines Webauftritts thematisch einordnet, und lässt erkennen, ob der Content vom Website-Betreiber auch den richtigen Themenclustern zugeordnet wird.

Artikel ist noch nicht online verfügbar

Du kannst die entsprechende Ausgabe hier online bestellen oder warten. Alle Artikel erscheinen hier jeweils 12 Monate nach der Printausgabe.

Name	Zweck	Ablauf	Typ	Anbieter
CookieConsent	Speichert Ihre Einwilligung zur Verwendung von Cookies.	1 Jahr	HTML	Website
fe_typo_user	Ordnet Ihren Browser einer Session auf dem Server zu. Dies beeinflusst nur die Inhalte, die Sie sehen und wird von uns nicht ausgewertet oder weiterverarbeitet.	Session	HTTP	Website

Name	Zweck	Ablauf	Typ	Anbieter
_gcl_au	Wird von Google AdSense zum Experimentieren mit Werbungseffizienz auf Webseiten verwendet.	3 Monate	HTML	Google
AMP_TOKEN	Enthält ein Token, das verwendet werden kann, um eine Client-ID vom AMP-Client-ID-Service abzurufen. Andere mögliche Werte zeigen Opt-out, Anfrage im Gange oder einen Fehler beim Abrufen einer Client-ID vom AMP Client ID Service an.	1 Jahr	HTML	Google
_dc_gtm_--property-id--	Wird von DoubleClick (Google Tag Manager) verwendet, um die Besucher nach Alter, Geschlecht oder Interessen zu identifizieren.	2 Jahre	HTML	Google