What is a "good" bot?

A good bot is a computer program that automates tasks over the Internet without being intentionally malicious or detrimental to websites. Examples include search engine crawlers that index web pages and help websites get traffic, copyright bots that find pirated content, and site monitoring bots that check for outages.

Why is it important to manage good bots?

A website's bot management strategy needs to distinguish between good and bad bots. It is important to allow good bots, like search engine crawlers, to access a site so that the site can appear in search results. At the same time, some good bots, like AI crawlers, can send a high volume of requests that might increase a site's bandwidth costs or exhaust its backend servers if they are not provided with direct instructions not to do so.

What is a robots.txt file?

A robots.txt file is a text file on a web server that provides rules for bots. These rules can specify which pages bots are allowed to crawl, which links they can follow, and how often they can crawl a website. It is a starting point for good bot management, although some bots may disregard these rules.

How can I control which bots access my website?

Two common methods are allowlisting and blocklisting. An allowlist is like a guest list; it is a list of bots that are permitted to access your web property, and all others are blocked. A blocklist is the opposite; it is a list of specific bots that are denied access, while all others are allowed.

Is using an allowlist enough to keep bad bots out?

An allowlist is not always sufficient on its own. Bad bots can sometimes fake their identity to bypass the allowlist. Therefore, allowlists should be combined with other methods like behavioral analysis or machine learning to detect malicious bot activity.

How does a bot management solution help?

A bot management solution is designed to allow good bots, block bad bots, and help website owners manage their interactions with different types of crawlers. For example, Cloudflare Bot Management uses machine learning and behavioral analysis to detect bad bots while automatically maintaining an allowlist of verified good bots.

So verwalten Sie vertrauenswürdige Bots | Vertrauenswürdige Bots vs. schädliche Bots

Was sind vertrauenswürdige Bots?

Gute Bots – Chatbot, Überwachungs-Bot, Suchmaschinen-Bot

Ein Bot ist ein Computerprogramm, das Interaktionen mit Websites über das Internet automatisiert. Wir verwenden den Begriff „guter“ Bot für jeden Bot, der Aufgaben ausführt, die nicht absichtlich für Websites schädlich oder anderweitig böswillig sind. Da gute Bots oft Eigenschaften mit schädlichen teilen, ist gezieltes Blockieren schwierig.

Es gibt viele Arten von vertrauenswürdigen Bots, die jeweils für unterschiedliche Aufgaben entwickelt wurden. Hier einige Beispiele:

Suchmaschinen-Bots: Auch als Webcrawler oder Spider bezeichnet: Diese Bots „crawlen“ bzw. überprüfen Inhalte auf fast jeder Website im Internet. Anschließend indizieren sie diese Inhalte, damit sie in den Suchmaschinenergebnissen für relevante Nutzersuchen angezeigt werden können. Sie werden von Suchmaschinen wie Google, Bing oder Yandex betrieben.
KI-Crawler: Ähnlich wie Suchmaschinen-Crawler kopieren diese Bots Inhalte zur Verwendung in Large Language Models (LLMs), Retrieval Augmented Generation (RAG) und anderen KI-Anwendungsfällen. (Während Betreiber von KI-Crawlern in der Regel nicht absichtlich Websites schädigen, können solche, die Originalinhalte extrahieren, den Betreibern von Websites direkte Kosten verursachen, da sie viele Anfragen für Webseiten senden können.)
Copyright-Bots: Bots, die Plattformen oder Websites nach Inhalten durchsuchen, die möglicherweise gegen das Urheberrecht verstoßen. Diese Bots können von jeder Person oder Firma betrieben werden, die urheberrechtlich geschütztes Material besitzt. Copyright-Bots können nach kopiertem Text, Musik, Bildern und sogar Videos suchen.
Site-Überwachungs-Bots: Diese Bots überwachen Website-Metriken – z. B. die Überwachung auf Backlinks oder Systemausfälle – und können Benutzer bei größeren Änderungen oder Ausfallzeiten warnen. Beispielsweise betreibt Cloudflare einen Crawler-Bot namens Always Online, der das Cloudflare-Netzwerk anweist, eine zwischengespeicherte Version einer Webseite bereitzustellen, wenn der Ursprungsserver nicht verfügbar ist.
Kommerzielle Bots: Bots, die von kommerziellen Unternehmen betrieben werden, die das Internet nach Informationen durchsuchen. Diese Bots können von Marktforschungsunternehmen betrieben werden, die Nachrichtenberichte oder Kundenbewertungen überwachen, von Werbenetzwerken, die die Stellen optimieren, an denen sie Anzeigen schalten, oder von SEO-Agenturen, die die Websites von Kunden crawlen.
Feed-Bots: Diese Bots durchforsten das Internet auf der Suche nach nachrichtenwürdigen Inhalten, die dem News-Feed einer Plattform hinzugefügt werden können. Content-Aggregator-Sites oder Social-Media-Netzwerke können derartige Bots betreiben.
Chatbots: Chatbots imitieren menschliche Konversationen, indem sie Benutzern mit vorprogrammierten Antworten antworten. Einige Chatbots sind komplex genug, um lange Gespräche zu führen.
Persönliche Assistenten-Bots: Siri oder Alexa sind gängige Beispiele. Oft KI-basiert sind diese Programme viel fortschrittlicher als der typische Bot.

Vertrauenswürdige Bots vs. schädliche Bots

Website-Administratoren sollten darauf achten, „gute“ Bots nicht unbeabsichtigt zu blockieren, während sie versuchen, schädlichen Bot-Traffic herauszufiltern. Viele Websites lassen beispielsweise in der Regel Webcrawler-Bots von Suchmaschinen durch, da eine Website ohne sie nicht in den Suchergebnissen angezeigt werden kann.

Schädliche Bots können Daten stehlen, in Benutzerkonten eindringen, Datenmüll über Online-Formulare senden und andere böswillige Aktivitäten ausführen. Zu den Arten von schlechten Bots gehören Credential Stuffing-Bots, Content Scraping-Bots, Spam-Bots und Klickbetrug-Bots.

Was ist robots.txt?

Das Verwalten vertrauenswürdiger Bots beginnt mit der korrekten Einrichtung von Regeln in der robots.txt-Datei einer Website. Eine robots.txt-Datei ist eine Textdatei, die sich auf einem Webserver befindet und die Regeln für alle Bots angibt, die auf die gehostete Website oder Anwendung zugreifen. Diese Regeln legen fest, welche Seiten die Bots durchsuchen können und welche nicht, welchen Links sie folgen sollen und welchen nicht, sowie andere Anweisungen für das Verhalten der Bots. Cloudflare bietet einen verwalteten robots.txt-Dienst an, um die Konfiguration dieser Regeln zu vereinfachen.

Einige (aber nicht alle) gute Bots werden den in robots.txt-Dateien deklarierten Präferenzen folgen. Google hat zum Beispiel erklärt, dass ein Website-Besitzer, wenn er nicht möchte, dass eine bestimmte Seite seiner Website in den Google-Suchergebnissen erscheint, eine Regel in die robots.txt-Datei schreiben kann, um zu verhindern, dass Googlebot diese Seite indexiert. Ebenso kann eine Website per robots.txt angeben, dass ihre Inhalte nicht zum LLM-Training verwendet werden sollen. Um es klarzustellen: robots.txt-Dateien verhindern nicht wirklich, dass Bots auf Websites zugreifen, und einige Bot-Betreiber ignorieren sie einfach.

Was ist eine Genehmigungsliste?

Stellen Sie sich eine Genehmigungsliste als eine Art Gästeliste für eine Veranstaltung vor: Wenn jemand, der nicht auf der Gästeliste steht, versucht, an der Veranstaltung teilzunehmen, hindert das Sicherheitspersonal ihn daran. Jeder, der auf der Liste steht, kann unbehindert an der Veranstaltung teilnehmen. Ein solches Vorgehen ist notwendig, weil sich ungebetene Gäste möglicherweise schlecht benehmen und die Party für alle anderen ruinieren.

Beim Bot-Management funktionieren Genehmigungsliste im Grunde genommen auf dieselbe Weise. Eine Genehmigungsliste ist eine Liste von Bots, die auf eine Website zugreifen dürfen. In der Regel funktioniert dies über einen sogenannten „User Agent“, die IP-Adresse des Bots oder eine Kombination aus beiden. Ein User Agent ist eine Textzeichenfolge, die den Typ des Benutzers (oder Bots) gegenüber einem Webserver identifiziert.

Durch Führen einer Liste von erlaubten vertrauenswürdigen Bot-User Agents, wie z. B. solchen, die zu Suchmaschinen gehören, und das anschließende Blockieren von Bots, die nicht auf der Liste stehen, kann ein Webserver den Zugriff für vertrauenswürdige Bots sicherstellen.

Webserver können auch eine Blockierliste mit bekannten schädlichen Bots führen.

Was ist eine Blockierliste?

Eine Blockierliste ist im Kontext von Netzwerken eine Liste von IP-Adressen, User Agents oder anderen Indikatoren der Online-Identität, die nicht auf einen Server, ein Netzwerk oder eine Website zugreifen dürfen. Dies ist ein etwas anderer Ansatz als die Verwendung einer Genehmigungsliste: Eine auf einer Blockierliste basierende Bot-Management-Strategie blockiert diese spezifischen Bots und lässt alle anderen Bots durch, während eine Genehmigungsliste-Strategie nur bestimmte Bots durchlässt und alle anderen blockiert.

Reichen Genehmigungslisten aus, um vertrauenswürdige Bots zuzulassen und schädliche Bots fernzuhalten?

Es ist möglich, dass ein schädlicher Bot seine User-Agent-Zeichenfolge so fälscht, dass er zumindest anfangs wie ein vertrauenswürdiger Bot aussieht – so wie ein Dieb einen gefälschten Ausweis verwenden könnte, um vorzutäuschen, er stünde auf der Gästeliste, und sich in eine Veranstaltung einzuschleichen.

Daher müssen Genehmigungslisten vertrauenswürdiger Bots mit anderen Ansätzen zur Erkennung von Spoofing kombiniert werden, wie z. B. der Verhaltensanalyse oder dem maschinellen Lernen. Dies hilft dabei, zusätzlich zum einfachen Genehmigen bekannter vertrauenswürdiger Bots sowohl schädliche als auch unbekannte vertrauenswürdige Bots proaktiv zu identifizieren.

Was ist mit KI-Bots?

Die meisten KI-Tools trainieren sich selbst mit Inhalten aus dem Web. KI-Crawler-Bots durchsuchen das Web nach neuen Inhalten. Das kann je nach Geschäftsmodell für eine bestimmte Website legitim oder schädlich sein.

Einige Websitebetreiber könnten feststellen, dass das fortgesetzte Crawlen durch KI-Bots ihre Backends erschöpft oder ihre Bandbreitenkosten zu stark erhöht. Andere könnten eine negative Beeinträchtigung ihrer Geschäftsmodelle erfahren, wenn sie auf ihre Originalinhalte zur Umsatzgenerierung angewiesen sind (z. B. ein werbebasiertes Umsatzmodell), da KI-Tools ihre Inhalte nutzen können, um Nutzeranfragen zu beantworten, ohne dass die Nutzer ihre Website besuchen.

Was macht eine Bot-Manager-Lösung?

Ein Bot-Manager-Produkt ermöglicht guten Bots den Zugriff auf eine Webseite, blockiert schlechte Bots und hilft Website-Administratoren, ihre Beziehungen zu KI-Crawlern und -Tools zu verwalten. Cloudflare Bot Management nutzt Machine Learning und Verhaltensanalysen des Traffics im gesamten Netzwerk, um schädliche Bots zu erkennen, während vertrauenswürdige Bots automatisch und kontinuierlich auf eine Positivliste gesetzt werden. Mit verwalteter robots.txt-Datei kann Cloudflare die robots.txt-Dateien von Websites automatisch ändern, um die Präferenzen des Website-Administrators auszudrücken. Und mit der Pay-per-Crawl-Funktion von Cloudflare können Website-Administratoren bestimmte KI-Crawler zulassen oder blockieren oder den Betreibern dieser Crawler sogar eine Gebühr pro Crawl in Rechnung stellen.

FAQs

Was ist ein „vertrauenswürdiger“ Bot?

Ein vertrauenswürdiger Bot ist ein Computerprogramm, das Aufgaben über das Internet automatisiert, ohne dabei absichtlich böswillig oder für Websites schädlich zu sein. Beispiele hierfür sind Suchmaschinen-Crawler, die Webseiten indexieren und Websites dabei helfen, Traffic zu generieren, Copyright-Bots, die Inhalte aufspüren, die gegen das Urheberrecht verstoßen, und Site-Überwachungs-Bots, die auf Ausfälle prüfen.

Warum ist die Verwaltung vertrauenswürdiger Bots wichtig?

Die Bot-Management-Strategie einer Website muss zwischen vertrauenswürdigen und schädlichen Bots unterscheiden. Es ist wichtig, vertrauenswürdigen Bots, wie beispielsweise Suchmaschinen-Crawlern, den Zugriff auf eine Website zu ermöglichen, damit die Website in den Suchergebnissen angezeigt wird. Gleichzeitig können einige vertrauenswürdige Bots, wie z. B. KI-Crawler, eine große Anzahl von Anfragen senden, die die Bandbreitenkosten einer Website erhöhen oder ihre Backend-Server überlasten können, wenn sie keine direkten Anweisungen erhalten, dies nicht zu tun.

Was ist eine Datei robots.txt?

Eine robots.txt-Datei ist eine Textdatei auf einem Webserver, die Regeln für Bots enthält. Diese Regeln können festlegen, welche Seiten Bots durchsuchen dürfen, welchen Links sie folgen dürfen und wie oft sie eine Website durchsuchen dürfen. Sie ist ein Ausgangspunkt für ein gutes Bot-Management, auch wenn einige Bots diese Regeln möglicherweise ignorieren.

Wie kann ich steuern, welche Bots auf meine Website zugreifen?

Zwei gängige Methoden sind Genehmigungslisten und Blockierlisten. Eine Genehmigungsliste ist wie eine Gästeliste: Es handelt sich um eine Liste von Bots, denen der Zugriff auf Ihre Website gestattet ist, während alle anderen blockiert werden. Eine Blockierliste ist das Gegenteil davon: Es handelt sich um eine Liste bestimmter Bots, denen der Zugriff verweigert wird, während alle anderen zugelassen sind.

Reicht die Verwendung einer Genehmigungsliste aus, um schädliche Bots fernzuhalten?

Eine Genehmigungsliste allein reicht nicht immer aus. Schädliche Bots können manchmal ihre Identität verschleiern, um die Genehmigungsliste zu überlisten. Daher sollten Genehmigungslisten mit anderen Methoden wie Verhaltensanalysen oder maschinellem Lernen kombiniert werden, um böswillige Bot-Aktivitäten zu erkennen.

Wie hilft eine Bot-Management-Lösung?

Eine Bot-Management-Lösung wurde entwickelt, um vertrauenswürdige Bots zuzulassen, schädliche Bots zu blockieren und Website-Betreibern dabei zu helfen, ihre Interaktionen mit verschiedenen Arten von Crawlern zu verwalten. Cloudflare Bot Management nutzt beispielsweise maschinelles Lernen und Verhaltensanalysen, um schädliche Bots zu erkennen, während automatisch eine Genehmigungsliste mit verifizierten vertrauenswürdigen Bots geführt wird.