Wie man KI-Crawler erkennen kann

Wenn eine Website ungewöhnliche Aktivitäten verzeichnet, kann dies an KI-Crawler-Bots liegen. Die Überprüfung der Protokolldateien einer Website kann dazu beitragen, festzustellen, welche KI-Bots eine Website durchsuchen.

Wie man KI-Crawler erkennen kann

Bots machen einen großen Anteil der Website-Besucher aus Bots, die Websites besuchen, erfüllen unterschiedliche Zwecke, doch besonders verbreitet sind heute KI-Crawler-Bots. Solche Bots sind darauf ausgerichtet, Webinhalte für das Training von KI-Modellen zu erschließen. KI-Bots helfen außerdem KI-Assistenten dabei, Webseiten zur Beantwortung von Nutzeranfragen bereitzustellen. Da hohes Bot-Aufkommen die Ressourcen einer Webpräsenz belasten kann, müssen Website-Administratoren sicherstellen, dass sie KI-Crawler in Protokollen erkennen und ihre Auswirkungen begrenzen können, wenn sie zu häufig crawlen.

Verifizierte KI-Crawler-Aktivitäten können mithilfe von Website-Protokollen zusammen mit einem Protokollanalysetool überwacht werden (da eine manuelle Analyse von Millionen von Protokollen nahezu unmöglich ist). Administratoren können ihre Protokolle nach den User-Agent-Strings der anfragenden Systeme durchsuchen und so erkennen, wie viele Anfragen von KI-Crawlern stammen.

Was machen KI-Crawler-Bots?

KI-Crawler sind Bots, die Webseiten „crawlen“ oder anfordern und dabei Hyperlinks verwenden, um das gesamte öffentliche Web zu erkunden. Sie sind bei weitem nicht die einzigen Crawler-Bots: Seit Jahrzehnten scannen und indexieren Suchmaschinen-Crawler-Bots Webinhalte, um sie den Nutzern in den Suchergebnissen bereitzustellen.

Ein Unterschied zwischen KI-Crawlern und Suchmaschinen-Crawlern besteht jedoch darin, dass KI-Crawler deutlich seltener menschlichen Traffic auf die von ihnen gecrawlten Seiten weiterleiten. Stattdessen nutzen sie die Seiten, die sie crawlen, zum Training von KI-Modellen, die Nutzeranfragen beantworten, ohne dass der Nutzer die KI-Anwendung verlässt oder eine Website besucht.

Webserver können daher eine große Anzahl von KI-Anfragen verarbeiten, während der Traffic von menschlichen Besuchern zurückgeht. Das steht im Gegensatz zu Suchmaschinen-Crawlern, die Webinhalte entdecken und anschließend Besucher auf die entsprechenden Seiten weiterleiten. Websites, die dies beobachten, möchten KI-Crawler möglicherweise einschränken oder blockieren, damit ihre Ressourcen nicht unnötig verbraucht werden. Andere Website-Administratoren möchten hingegen sicherstellen, dass KI-Crawler ihre Seiten crawlen können, damit sie in KI-Übersichten (AI Overviews) erscheinen. In jedem Fall ist es für die meisten Websites entscheidend, den Traffic von KI-Crawler-Bots zu identifizieren und zu steuern.

So verfolgen Sie Aktivitäten von KI-Crawlern über User-Agent-Zeichenfolgen

Alle Personen und Systeme, die im Internet unterwegs sind, senden in ihren HTTP-Anfragen einen User-Agent-String mit (dieser unterscheidet sich von der IP-Adresse). Bei menschlichen Nutzern wird der User-Agent-String vom Browser erzeugt und gibt in der Regel den Gerätetyp sowie den Browsertyp an, etwa so:

  • Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, wie Gecko) Chrome/143.0.0.0 Safari/537.36

Bots verwenden nicht zwingend Browser oder bestimmte Endgeräte, und die meisten Crawler-Bots haben einfache, klar definierte User-Agent-Strings, zum Beispiel:

  • Googlebot

Durchsuchen Sie Ihre Protokolle nach den User-Agent-Strings bekannter Bots, um zu erkennen, welche Crawler Ihre Website erreichen, wie viele Seiten sie abrufen, wie häufig sie crawlen und mehr.

Zu den häufigsten KI-Crawlern – und denjenigen, die eine Website jederzeit mit hoher Wahrscheinlichkeit crawlen – gehören:

  • Meta-ExternalAgent
  • GPTBot (von OpenAI)
  • GoogleOther
  • Amazonbot
  • PetalBot (von Huawei)

Eine vollständigere Liste dieser KI-Crawler mit ihren User-Agent-Strings finden Sie unten oder in dem ständig aktualisierten und frei verfügbaren Cloudflare Radar-Bericht.

Welche KI-Bots durchsuchen (crawlen) Ihre Website?

KI-Bots können von Organisationen stammen, die KI-Modelle betreiben, oder von KI-Agenten und anderen KI-Produkten. Einige suchen nach Trainingsdaten für ihre Modelle, andere nach Informationen, mit denen sie Nutzeranfragen in Echtzeit beantworten können.

Die folgenden Bots sind alle verifiziert und verfügen über eine öffentliche Dokumentation.

Liste häufiger KI-Webcrawler

Meta-ExternalAgent

Dieser Bot stammt von Meta (bekannt als Betreiber von Facebook und Instagram). Meta-ExternalAgent durchsucht das Web nach Inhalten zum Training von KI-Modellen. Stand 2026 sendet dieser Bot die zweitmeisten Anfragen aller Bots im Internet (nach dem Suchcrawler Googlebot).

User-Agent-String in Protokolldateien:

  • meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalagent/1.1

GPTBot

Der GPTBot von OpenAI durchsucht das Web nach Inhalten für das Training von KI-Modellen, darunter auch das weit verbreitete Modell ChatGPT. Nach Meta-ExternalAgent sendet GPTBot die drittmeisten Anfragen. (Sehen Sie sich auch die Live-Rankings in Cloudflare Radar an.)

User-Agent-String in Protokolldateien:

  • GPTBot

OAI-SearchBot

OAI-SearchBot, ebenfalls von OpenAI, wird verwendet, um Websites zu finden, auf die in Suchergebnissen in ChatGPT verwiesen werden kann.

User-Agent-String in Protokolldateien:

  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); kompatibel; OAI-SearchBot/1.0; +https://openai.com/searchbot

GoogleOther

Dieser Crawler-Bot von Google unterscheidet sich vom Suchcrawler Googlebot. Er erfüllt verschiedene Aufgaben und wird nicht nur für das Training von KI-Modellen eingesetzt. Google hat davor gewarnt, GoogleOther zu blockieren, da er Webinhalte findet, die in vielen Bereichen des Google-Ökosystems verwendet werden.

User-Agent-String in Protokolldateien:

  • GoogleOther

Amazonbot

Dieser Crawler stammt von Amazon und hilft Amazon unter anderem beim Training von Modellen generativer KI für die von ihm gecrawlten Inhalte.

User-Agent-String in Protokolldateien:

  • Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1)

PetalBot

PetalBot stammt vom Gerätehersteller Huawei und findet Webinhalte sowohl für Petal, die Suchmaschine von Huawei, als auch für andere Dienste von Huawei, einschließlich der KI-Suche.

User-Agent-String in Protokolldateien:

  • Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, wie Gecko) Mobile Safari/537.36 (kompatibel; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
  • Mozilla/5.0 (kompatibel;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

Applebot

Der von Apple betriebene Crawler Applebot unterstützt zahlreiche Dienste im Apple-Ökosystem, darunter die Suchfunktionen in Spotlight, Siri und Safari. Applebot liefert außerdem Inhalte für das Training generativer KI-Modelle, die unter anderem Apple Intelligence, Services und Entwickler-Tools unterstützen.

User-Agent-String in Protokolldateien:

  • (Applebot/0.1; +http://www.apple.com/go/applebot)

DuckAssistbot

Laut dem Suchmaschinenanbieter DuckDuckGo ist DuckAssistbot „ein Webcrawler für DuckDuckGo Search, der Seiten in Echtzeit nach unseren KI-gestützten Antworten durchsucht... Diese Daten werden in keiner Weise zum Training von KI-Modellen verwendet.“

User-Agent-String in Protokolldateien:

  • DuckAssistBot/1.1; (+http://duckduckgo.com/duckassistbot.html)

Andere Crawler und KI-Assistenten sind MistralAI-User, Manus Bot, Devin und QualifiedBot.

Cloudflare Radar ordnet diese und andere KI-bezogene Bots in die Kategorien KI-Crawler, KI-Assistenten und KI-Suche ein. Um alle verifizierten KI-Bots anzuzeigen, sortieren Sie die Liste in Cloudflare Radar nach Kategorie.

Wie man Bots und KI-Crawler blockieren kann

Die Richtlinien in der robots.txt legen fest, welche Bereiche einer Website Bots aufrufen dürfen und welche nicht – oder ob sie die Website überhaupt crawlen sollen. Die robots.txt ist jedoch nicht verbindlich; ihre Einhaltung ist eher eine freiwillige Praxis. Dennoch halten sich die meisten seriösen Bots an diese Vorgaben. Durch entsprechende robots.txt-Regeln können KI-Crawler-Bots angewiesen werden, bestimmte Teile oder die gesamte Website nicht zu crawlen.

Eine robots.txt-Datei könnte zum Beispiel diesen Befehl enthalten:

User-Agent: Example.com-Bot
Disallow: /

Damit wird Example.com-Bot (kein echter Bot, sondern nur für dieses Beispiel) mitgeteilt, dass der Website-Administrator nicht möchte, dass er irgendeinen Teil der Website crawlt.

Das manuelle Erstellen dieser robots.txt-Regeln kann zeitaufwendig sein. Um die Verwaltung des KI-Crawler-Traffics zu erleichtern, bietet Cloudflare AI Crawl Control an.

Mit AI Crawl Control können Website-Administratoren bestimmte KI-Crawler blockieren oder zulassen, alle KI-Crawler blockieren oder sogar bestimmten Crawlern Gebühren für die Crawling-Berechtigungen berechnen.

Was ist mit nicht verifizierten KI-Crawler-Bots?

Nicht alle Bots befolgen robots.txt oder respektieren die Vorgaben von Website-Administratoren. Einige Crawler tarnen ihre Aktivitäten sogar, um Inhalte zu scrapen, ohne blockiert zu werden. In solchen Fällen sind fortschrittlichere Bot-Management-Tools erforderlich, die böswillige Bot-Aktivitäten auch dann erkennen können, wenn sie verschleiert sind.

Cloudflare AI Crawl Control nutzt Machine Learning, Verhaltensanalyse und Fingerprinting, um sämtlichen Bot-Traffic zu erkennen – selbst wenn er verschleiert ist. Cloudflare kann unerwünschte Bot-Aktivitäten auf jeder Website erkennen und blockieren.

Beginnen Sie mit AI Crawl Control.

 

FAQs

Wofür werden KI-Crawler-Bots in erster Linie eingesetzt?

Diese Bots durchsuchen das öffentliche Web, um Inhalte zu finden und zu sammeln, die zum Training von KI-Modellen verwendet werden – insbesondere von generativen KI-Modellen und Large Language Models (LLMs). Einige KI-Crawler helfen außerdem virtuellen Assistenten dabei, relevante Webseiten zu finden, um Nutzerfragen zu beantworten.

Wie unterscheiden sich KI-Crawler von herkömmlichen Suchmaschinen-Crawlern?

Obwohl beide das Web über Hyperlinks durchsuchen, leiten Suchmaschinen-Crawler menschliche Besucher in der Regel über Suchergebnisse zurück auf die ursprüngliche Website. KI-Crawler hingegen nutzen die Daten einer Website häufig, um Antworten direkt innerhalb einer KI-Anwendung zu generieren, was zu einem Rückgang des tatsächlichen menschlichen Traffics auf der Quellseite führen kann.

Welche KI-Crawler senden derzeit die meisten Anfragen über das Internet?

Stand 2026 ist Meta-ExternalAgent der zweitaktivste Bot im Web – nur der Suchcrawler Googlebot ist noch aktiver. GPTBot, der von OpenAI zum Training von Modellen wie ChatGPT betrieben wird, belegt beim Gesamtvolumen der Anfragen den dritten Platz.

Was ist die gängigste Methode, um Bots von einer Website fernzuhalten?

Website-Administratoren verwenden häufig eine robots.txt-Datei, um festzulegen, auf welche Bereiche einer Website Bots zugreifen dürfen und auf welche nicht. Auch wenn diese Richtlinien technisch nicht verbindlich sind, halten sich die meisten seriösen KI-Bots an die vom Administrator festgelegten Regeln.

Wie hilft Cloudflare AI Crawl Control beim Bot-Management?

Mit diesem Tool lässt sich die Verwaltung von KI-Crawlern deutlich vereinfachen: Administratoren können bestimmte KI-Crawler gezielt zulassen oder blockieren oder alle auf einmal einschränken. Darüber hinaus kann das Tool nicht verifizierte Bots erkennen, die ihre Identität verschleiern, indem es Machine Learning und Verhaltensanalysen einsetzt, um getarnte Aktivitäten aufzudecken.