What are AI crawlers and how do they work?

AI crawlers are a type of web crawler (or web scraper) that access, download, and index content from the Internet. They use scraped content to train large language models (LLMs) or contribute to the responses those models generate.

What are the main problems AI crawlers can cause for website owners?

AI crawlers might ignore site policies (like those found in the robots.txt file), steal intellectual property (IP), reduce visitors for original content, degrade site performance, introduce biases, and generate inaccurate information.

What steps can content providers take to limit AI crawlers' access to their sites?

Content providers can implement a multi-tiered strategy, which includes updating their robots.txt file, using meta tags to block crawlers from some parts of a site, distinguishing humans from bots, employing rate limiting, and trapping misbehaving crawlers.

How can content providers differentiate between good and bad web crawlers?

Content providers can use modern bot management solutions to help block malicious bots while allowing beneficial crawlers to access their site. Additionally, they can start by blocking all crawlers by default on a new website.

How does Cloudflare AI Crawl Control help website owners manage AI crawler activity?

Cloudflare AI Crawl Control helps content owners understand crawling patterns, manage crawler activity, and request payment from AI crawler owners.

How to block AI crawlers

Wie man KI-Crawler blockieren kann

Webcrawler (auch bekannt als Webscraper) sind Bots, die Inhalte aus dem gesamten Web abrufen, herunterladen oder indizieren. Einige dieser Bots werden von Suchmaschinen verwendet, um Inhalte im Internet zu indexieren und zu kategorisieren. Andere Bots können böswillig sein und ohne Erlaubnis des Website-Eigentümers zum Scrapen und Herunterladen von Inhalten gesendet werden.

Künstliche Intelligenz (KI)-Crawler sind eine Art Webcrawler, die die gesammelten Inhalte nutzen, um große Sprachmodelle (LLMs) zu trainieren oder deren Antworten zu beeinflussen.

KI-Crawler funktionieren ähnlich wie traditionelle Suchmaschinen-Crawler, da sie Informationen indexieren und diese verwenden, um Benutzeranfragen zu beantworten. Aspekte ihrer Funktionalität können jedoch Probleme für Website-Besitzer verursachen. Das Verständnis dieser Probleme ist der erste Schritt, um die Kontrolle über ursprüngliche Inhalte zurückzugewinnen.

Welche Probleme können KI-Crawler verursachen?

KI-Crawler können für Content-Publisher verschiedene Probleme verursachen. Das könnte umfassen:

Ignorieren von Website-Richtlinien, die Inhalte schützen: Wenn KI-Crawler HTTP-Anfragen senden, um die Inhalte der Website herunterzuladen, wird von ihnen erwartet, sich auf der Website zu identifizieren und anschließend Inhalte, Text, Links, Metadaten und Tags zu analysieren. Sie müssen die Richtlinien der Website, die Protokolle der robots.txt-Datei und die allgemeinen Website-Richtlinien einhalten. Viele KI-Crawler ignorieren jedoch einfach die Regeln und Vorschriften einer bestimmten Website und nehmen sich, mit oder ohne Erlaubnis, alles, was sie finden können.
Diebstahl geistigen Eigentums (IP): KI-Crawler und ihre LLMs können Originalinhalte als KI-zusammengefasste Inhalte ohne angemessene Quellenangabe erneut veröffentlichen. Crawler und LLMs können auch unterschiedslos Inhalte von mehreren Websites kombinieren und bestimmte Inhalte über- oder unterbewerten, ohne die Genauigkeit oder Relevanz bestimmter Ideen richtig zu beurteilen.
Weniger Besucher für Originalinhalte: Obwohl KI-generierte Zusammenfassungen Links zu Original-Websites enthalten können, ist es weniger wahrscheinlich, dass Suchende diese Websites besuchen, wenn sie auf zusammengefasste Informationen zugreifen können. Infolgedessen verzeichnen Website-Betreiber weniger Traffic und geringere Werbeeinnahmen.
Bias verstärken und falsche Informationen verbreiten: KI-Crawling kann bestehende Verzerrungen sowie gezielte Fehlinformationen aus den gesammelten Daten verstärken, ohne diese Inhalte vor der Generierung von Zusammenfassungen ausreichend zu prüfen. KI-Modelle sind auch anfällig für „Halluzinationen“, wobei das KI-Modell im Grunde genommen fehlende Informationen erfindet.
Verminderte Website-Performance: Wenn Bots wiederholt eine Website scrapen, können sie die Server verlangsamen, die Seitenladezeiten erhöhen und die Bandbreitenkosten in die Höhe treiben.

Welche Maßnahmen können Inhaltsanbieter ergreifen, um KI-Crawler zu identifizieren und zu beschränken?

Der erste Schritt bei der Verwaltung von KI-Crawling-Aktivitäten ist, ein besseres Verständnis und eine bessere Übersicht über diese Aktivität zu erhalten. Wenn Sie verstehen, welche Crawler auf Ihre Website zugreifen, wie oft sie dies tun und wie viele Zugriffe sie generieren, können Sie den Rest Ihrer Strategie besser festlegen.

Als Nächstes können Website-Betreiber eine mehrstufige Strategie implementieren, um die gewünschten Crawler zuzulassen und die übrigen zu blockieren. Zu diesen Taktiken zählen:

Aktualisieren ihrer robots.txt-Datei, um den Zugriff von KI-Crawlern auf bestimmte Inhalte einzuschränken. Denken Sie jedoch daran, dass einige Crawler die Datei und ihre Anweisungen möglicherweise weiterhin ignorieren.
Verwendung von Meta-Tags, um KI-Crawler daran zu hindern, die gesamte oder bestimmte Teile ihrer Website zum Training von LLMs zu verwenden.
Unterscheidung zwischen Mensch und Bot, um Bots zu beschränken, ohne Menschen zu verlangsamen. Obwohl Websites in der Vergangenheit CAPTCHA-Tests verwendet haben, um zu beweisen, dass Nutzer Menschen sind, können fortschrittlichere Technologien wie Cloudflare Turnstile menschliche Nutzer verifizieren und gleichzeitig die Nutzerfrustration reduzieren. Dies ist eine hervorragende Möglichkeit, KI-Crawler einzuschränken, die die Anweisungen einer robots.txt-Datei ignorieren.
Trennen Sie vertrauenswürdige von schädlichen Bots, damit Sie weiterhin von vertrauenswürdigen Bots profitieren können. Moderne Bot-Management-Lösungen können Ihnen helfen, schädliche Bots zu blockieren, während andere Zugriff auf Ihre Website erhalten.
Einsatz von Rate Limiting durch eine Web Application Firewall (WAF)-Lösung, um KI-Crawler zu blockieren oder zu bremsen, damit es nicht zu übermäßigen Versuchen kommt, auf bestimmte Inhalte zuzugreifen.
Einsatz einer WAF, um bestimmte bekannte IP-Adressen von KI-Crawlern vom Zugriff auf Ihre Website auszuschließen.
Abfangen missbräuchlicher Crawler mithilfe eines Tools wie dem AI Labyrinth von Cloudflare, das ein Wirrwarr von unsinnigen Inhalten und ein Wirrwarr von Links ausschließlich zu KI-Bots liefert, die nachweislich die robots.txt-Datei der Website ignorieren.
Crawler standardmäßig blockieren: Beginnen Sie mit einer sauberen Ausgangsbasis. Beim Start einer neuen Website kann es sinnvoll sein, zunächst alle Crawler zu blockieren. Sie können dann Funktionen implementieren, um Crawler zu identifizieren, ihr Verhalten zu überwachen und auszuwählen, welche mit bestimmten Einschränkungen Ihre Website durchsuchen dürfen.

Wie schützt Cloudflare vor KI-Crawlern?

Cloudflare AI Crawl Control hilft Website-Betreibern, die Kontrolle über KI-Crawler zurückzuerlangen. Cloudflare ist etwa 20 % aller Webpräsenzen vorgeschaltet und erhält dadurch einen tiefen Einblick in sämtliche Crawler-Aktivitäten. Diese Transparenz ermöglicht es Inhaltsanbietern, AI Crawl Control wie folgt zu nutzen:

Crawling-Muster auf ihren Webpräsenzen zu verstehen – differenziert nach Crawler, Domain oder einzelner Seite
Crawler-Aktivitäten zu steuern – durch Blockier- oder Freigaberegeln
Zahlungen von KI-Crawlern pro Crawl anzufordern – entweder über anpassbare HTTP-402-Antworten oder ein von Cloudflare entwickeltes Pay-per-Crawl-System

Klicken Sie hier, um kostenlos zu starten.

FAQs

Was sind KI-Crawler und wie funktionieren sie?

KI-Crawler sind eine Art von Webcrawlern (oder Web-Scrapern), die Inhalte aus dem Internet abrufen, herunterladen und indizieren. Sie verwenden gescrapte Inhalte, um große Sprachmodelle (LLMs) zu trainieren oder tragen zu den Antworten bei, die diese Modelle generieren.

Welche Hauptprobleme können KI-Crawler für Website-Betreiber verursachen?

KI-Crawler können Website-Richtlinien (wie in der robots.txt-Datei) ignorieren, geistiges Eigentum (IP) entwenden, die Besucherzahlen für Originalinhalte reduzieren, die Performance der Website beeinträchtigen, Verzerrungen verursachen und ungenaue Informationen generieren.

Welche Schritte können Content-Anbieter unternehmen, um den Zugriff von KI-Crawlern auf ihre Websites zu beschränken?

Content-Anbieter können eine mehrstufige Strategie umsetzen, welche die Aktualisierung ihrer robots.txt-Datei, die Verwendung von Meta-Tags, um Crawler von bestimmten Teilen einer Website auszuschließen, die Unterscheidung zwischen Menschen und Bots, die Anwendung von Rate Limiting und das Abfangen von sich schlecht verhaltenden Crawlern beinhaltet.

Wie können Content-Anbieter zwischen guten und schlechten Webcrawlern unterscheiden?

Content-Anbieter können moderne Bot-Management-Lösungen verwenden, um bösartige Bots zu blockieren und gleichzeitig nützlichen Crawlern den Zugriff auf ihre Website zu ermöglichen. Zudem können sie auf einer neuen Website standardmäßig alle Crawler blockieren.

Wie hilft Cloudflare AI Crawl Control Websitebesitzern bei der Verwaltung der Aktivitäten von KI-Crawlern?

Cloudflare AI Crawl Control hilft Content-Betreibern, Crawling-Muster zu verstehen, Crawler-Aktivitäten zu verwalten und Zahlungen von KI-Crawler-Betreibern anzufordern.