Gefunden werden in Zeiten von KI – so funktioniert „GEO“

Die Internetsuche verändert sich derzeit grundlegend. Während wir jahrelang auf traditionelle Suchmaschinen wie Google gesetzt haben, übernehmen heute KI-gestützte Systeme zunehmend die Führung. ChatGPT verzeichnet mittlerweile 800 Millionen wöchentliche Nutzer, und knapp 60% der Google-Suchanfragen enden ohne einen Klick – die KI liefert die Antwort direkt auf der Suchergebnisseite. Im Oktober 25 schaltete Google seinen AI Mode auch in Deutschland live, einen neuen Modus, in dem Google per generativer KI von einer Linkliste zu einer Antwortmaschine wechselt, der auch Rückfragen gestellt werden können, ähnlich eines Chatbots wie ChatGPT.

Diese Entwicklungen stellen Content-Ersteller und Website-Betreiber vor eine zentrale Frage: Wie optimiert man Inhalte für ein Internet, in der automatisierte KI-Modelle entscheiden, welche Informationen präsentiert werden?

Die Antwort heißt: GEO – Generative Engine Optimization. Um GEO zu verstehen, müssen wir erst verstehen, wie KI-Modelle suchen.

 

Wie suchen KI-Modelle?

Moderne generative Large Language Models (LLMs) wie ChatGPT (OpenAI), Gemini (Google) oder Claude (Anthropic) basieren grundsätzlich auf einem vortrainierten Datensatz. Dieser Datensatz ist jedoch nicht tagesaktuell und enthält daher veraltete Informationen für manche Anfragen. Um diese Hürde zu überwinden, haben die meisten modernen Chatbots eine Such-Funktion. Dabei gibt es üblicherweise zwei verschiedene Suchmodi: eine Standard-Suche und eine „Deep Research“-Funktion.
Auf den ersten Blick vermutet man, dass generative Chatbots im Standard-Suchmodus tatsächlich das Internet für die gegebene Prompt (Anfrage) durchsuchen – das stimmt jedoch in den meisten Fällen nicht. Sie greifen hauptsächlich auf einen Index zu, der, vergleichbar mit dem Google-Index, von automatisierten Systemen erstellt wird, die das Internet nach Websites durchsuchen und diese indexieren, sogenannte Crawler.
Diese Vorgehensweise ist nichts Neues und ist die Grundlage für die Google-Suche.

Die KI-Anbieter greifen hier jeweils auf verschiedene Indizes zu. OpenAI stützt sich für ChatGPT auf den Bing-Index und einen internen Index. Anthropic verwendet für Claude den Brave-Index und einen eigenen Index, Google setzt für Gemini logischerweise auf den Google-Index. Mittlerweile erkennen die meisten Modelle anhand des Prompts auch selbst, wann sie aktuelle Informationen benötigen und starten eine Suche, etwa wenn man nach aktuellen Ereignissen fragt.

Wichtig ist jedoch zu verstehen, dass das Web auch hier nicht live vom Chatbot durchsucht wird. Spezifische Seiten werden nur dann aufgerufen, wenn der Nutzer tatsächlich danach bittet oder einen Link einfügt. Erst dann wird ein Bot losgeschickt, um die Website zu durchsuchen, bei ChatGPT ist das bspw. der ChatGPT-User-Bot.

Auf technischer Ebene wird nach der Suchanfrage ein Verfahren namens RAG (Retrieval-Augmented Generation) eingesetzt. RAG lässt das Modell seine vortrainierten Informationen mit den recherchierten Informationen verbinden, um eine Antwort zu liefern.

Anders sieht es bei den Deep Research-Funktionen der KIs aus: Diese durchsuchen meist tatsächlich per eigenem Bot live das Internet, um aktuelle Informationen zu finden.

Generell ist die Datenlage zu den Suchfunktionen der KI-Modelle schwierig, die großen KI-Anbieter schildern aus wirtschaftlich-taktischen Gründen die genaue Funktionsweise ihrer Suchfunktionen nicht, es gibt keine spezifischen Dokumentationen und immer wieder neue Funktionen oder Verfahren. Deshalb schreiben wir in diesem Artikel oft „meist“, da sich viele Aussagen nur über großangelegte Tests und begründete Vermutungen durch Aussagen der Entwickler verifizieren lassen und es immer Ausreißer (durch die schiere Anzahl an KI-Modellen) gibt. Die eben geschilderten Funktionsweisen der bekanntesten Chatbots sind ein genereller Konsens in der Branche.

SEO vs. GEO: Die Unterschiede

Während SEO (Search Engine Optimization) darauf abzielt, in klassischen Suchmaschinen-Rankings gut platziert zu werden, konzentriert sich GEO darauf, wie generative KI-Modelle Inhalte auswählen, verarbeiten und in ihren Antworten präsentieren.

Grundsätzlich ist eine große Hürde für GEO schon überwunden, wenn SEO richtig betrieben wird, da sich die KI-Such-Funktionen auf Indizes stützen, in denen man durch richtige SEO gut gefunden wird.
SEO ist eine eigene Disziplin für sich und unterscheidet sich leicht für die jeweilige Suchmaschine (Bing, Google, etc.), da die verschiedenen Suchmaschinen bestimmte Ranking-Faktoren niedriger oder höher bewerten.
Da Google in den meisten Ländern den größten Marktanteil hat, orientiert sich die gängige SEO-Praxis stark an den Google-Algorithmen. Eine für Google optimierte Website erzielt in der Regel auch bei Bing gute Ergebnisse, da die grundsätzlichen Prinzipien der Optimierung ähnlich sind.

Essenzielle Punkte zu GEO

Bemerkt man, dass der eigene Inhalt oder die eigene Firma in manchen Chatbots öfter und in manchen seltener gefunden wird, muss man sich zwei essenzielle Fragen stellen:

  • Sind die Crawler der KI-Firmen auf meiner Website erlaubt?
  • Welchen Index verwendet die KI, von der ich gefunden werden will?

Im Folgenden wollen wir Ihnen helfen, diese Fragen zu beantworten.

 

Frage eins: Sind die Crawler der KI-Firmen auf meiner Website erlaubt?

Jede (richtig aufgebaute) Website hat grundsätzlich eine robots.txt-Datei. Diese Datei lässt sich einfach aufrufen: [domain.endung]/robots.txt.

Eine robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis einer Website liegt und Suchmaschinen-Crawlern (Bots) Anweisungen gibt, welche Bereiche der Website sie crawlen dürfen und welche nicht. Sie wird verwendet, um den Zugriff auf bestimmte Seiten zu steuern. Obwohl die Datei Anweisungen enthält, ist sie keine Sicherheitsmaßnahme; böswillige Bots können sie ignorieren.

Verbietet man den (gutwilligen) Crawlern der KI-Anbieter den Zugriff auf die eigene Website, taucht die Website nicht in den KI-Suchergebnissen auf. Genauso taucht die Seite nicht bei Google auf, wenn man dem Google-Crawler keinen Zugriff gewährt.

Bei den großen Chatbots gibt es meistens mindestens zwei Crawler: Einen, der vom Nutzer aktiv losgeschickt wird, um eine Website zu besuchen (s.o.; per Link-Angabe oder Deep Research-Funktion), und einen, der Daten für das Training der KI-Modelle sammelt.

Manche Website-Betreiber entscheiden sich dazu, die Trainings-Crawler der KI-Firmen auszuschließen, um zu vermeiden, dass der eigene Inhalt als Training für die KI-Modelle verwendet wird.
Nehmen wir an, wir haben eine Website, bei der wir den Trainings-Crawler von ChatGPT (OpenAI) ausschließen wollen. Das sähe in der robots.txt-Datei so aus:

User-agent: GPTBot

Disallow: /

Würden wir jeden Bot von OpenAI blockieren wollen, müssten wir einerseits Nutzer ausschließen, die die Deep Research-Funktionen verwenden und andererseits auch den Suchindex-Crawler ausschließen, was dazu führt, dass wir nicht mehr in den Suchergebnissen von ChatGPT zu finden wären. Das sähe so aus:

User-agent: GPTBot

Disallow: /

User-agent: OAI-SearchBot

Disallow: /

User-agent: ChatGPT-User

Disallow: /

 

Wie oben erwähnt, ist es für GEO essenziell, die Index-Crawler nicht auszuschließen, um in den Suchergebnissen der KI-Modelle gefunden zu werden.

 

Frage zwei: Welchen Index verwendet die KI, von der ich gefunden werden will?

Wie oben schon erwähnt, greifen OpenAI und Anthropic neben den eigenen Indizes auch auf den Bing- bzw. Brave-Index und Google auf den hauseigenen Index zurück.  Folglich ist es hilfreich, die eigene Website zusätzlich für die jeweilige Suchmaschine zu optimieren und ihren Crawler zuzulassen. Möchte man bspw. besonders bei ChatGPT gefunden werden, richtet man die SEO also auch auf Bing aus.

In der KI-Branche zeichnet sich zudem eine interessante Entwicklung ab:  bestimmte KI-Modelle werden von bestimmten Zielgruppen bevorzugt. Wer also eine bestimmte Zielgruppe anvisiert, sollte sich die Frage stellen, welches KI-Modell die Zielgruppe wahrscheinlich am häufigsten nutzt. Diese Art der Optimierung steht definitiv noch in den Startlöchern und es haben sich bisher noch keine eindeutigen Zielgruppen für die großen KI-Anbieter gebildet. Ist es Ihnen wichtig, Vorreiter bei GEO zu sein, können Sie diesen Punkt aber in Ihre Optimierung einfließen lassen. Daten hierzu findet man gut bei den KI-Anbietern selbst, die ihre Nutzerbasis in Studien analysieren.
ChatGPT, bspw., wird eher privat genutzt, Claude eher für technische, genaue Aufgaben und das Programmieren.

Weitere Beiträge

Make the Journalist WOW!

Es gibt Dinge, die ohne Worte funktionieren. Gute Interviews gehören sicher nicht dazu.