Was ist ein Webcrawler? | So funktionieren Web Spider

Ein Webcrawler oder Spider ist eine Art von Bot, der oft von Suchmaschinenanbietern wie Google und Bing und KI-Modellanbietern wie OpenAI, Meta und anderen betrieben wird. Sie führen viele verschiedene Aufgaben aus, darunter das Indizieren von Websites für die Suche und das Scraping von Inhalten für das Training und den Betrieb von KI-Modellen.

Was ist ein Webcrawler-Bot?

Ein Webcrawler-, Spider- oder ein Suchmaschinen-Bot ist ein Softwareprogramm, das Inhalte aus dem gesamten Internet abruft, herunterlädt und/oder indiziert. Webcrawler-Betreiber versuchen möglicherweise herauszufinden, um was es bei (fast) jeder Webseite im Internet geht, damit die Informationen bei Bedarf abgerufen werden können. Suchmaschinenbetreiber können diese Bots verwenden, um relevante Seiten zu finden und in den Suchergebnissen anzuzeigen. Sie werden als „Webcrawler“ bezeichnet, weil Crawling der Fachbegriff für den automatischen Zugriff auf eine Website und die Erfassung von Daten über ein Softwareprogramm ist.

Bei KI-Webcrawlern handelt es sich um eine gesonderte, aber verwandte Art von Crawler-Bots. Sie greifen auf Inhalte im Internet zu, um entweder beim Trainieren von Large Language Models (LLM) zu helfen oder KI-Assistenten dabei zu unterstützen, Nutzer mit Informationen zu versorgen. Viele Suchmaschinenanbieter betreiben auch KI-Crawler.

Webcrawler von Suchmaschinen

Die Anwendung eines Suchalgorithmus auf die von Webcrawlern erfassten Daten erlaubt nach Eingabe einer Suchanfrage bei Google oder Bing (oder einer anderen Suchmaschine) die Auflistung von Links zu relevanten Webseiten.

Der Webcrawler-Bot einer Suchmaschine ist mit einer Person vergleichbar, die alle Bücher in einer chaotischen Bibliothek durchgeht und einen Kartenkatalog erstellt, damit künftig jeder Bibliotheksbesucher die benötigten Informationen schnell und leicht findet. Zur thematischen Kategorisierung und Sortierung werden bei jedem Buch der Titel, die Zusammenfassung und Auszüge gelesen, um in Erfahrung zu bringen, worum es darin geht.

Web-Crawler-Bot, der Informationen organisiert

Im Gegensatz zu einer Bibliothek besteht das Internet jedoch nicht aus echten Stapeln von Büchern, und deshalb kann man schwer nachvollziehen, ob alle notwendigen Informationen richtig indexiert wurden oder ein riesiger Teil davon übersehen wird. Um alle relevanten Informationen zu finden, die das Internet zu bieten hat, beginnt ein Webcrawler-Bot mit einem bestimmten Satz bekannter Webseiten und folgt dann Hyperlinks von diesen Seiten zu anderen Seiten, folgt Hyperlinks von diesen anderen Seiten zu weiteren Seiten, usw.

Es ist unklar, wie viel des frei zugänglichen Internets tatsächlich von Suchmaschinen-Bots erfasst wird. Einige Quellen schätzen, dass nur 40–70 % des Internets für die Suche indexiert sind – und das sind Milliarden von Webseiten.

KI-Webcrawler

KI-Webcrawler erfüllen im Wesentlichen drei Funktionen:

  1. Sammeln von Trainingsdaten für LLM: LLM müssen mit großen Mengen an Inhalten gefüttert werden, um ihre Ergebnisse verfeinern und Nutzern aufschlussreichere und genauere Antworten liefern zu können. Mit neuen Inhalten können sie sich sich weiter verbessern. Deshalb durchsuchen KI-Crawler Websites nach solchen neuen Inhalten. Sie kopieren und speichern alles, was sie finden, damit das Material zum Trainieren des Modells verwendet werden kann.
  2. Echtzeit-Abruf von Informationen für Nutzer: Manchmal ergänzen KI-Assistenten die von ihnen generierten Antworten durch Inhalte aus externen Quellen. Zu diesem Zweck können sie Webinhalte, die ihre Bots aufspüren, in ihre Antworten einbeziehen.
  3. Inhalte indexieren: Wie Suchmaschinen müssen auch KI-Modelle wissen, wo sie im Internet wertvolle Inhalte finden können. Andernfalls können sie beispielsweise keinen Live-Abruf als Reaktion auf Prompts durchführen.

Menschen erhalten zunehmend Antworten auf ihre Anfragen durch KI-Tools, und die Aktivität von KI-Crawlern übersteigt inzwischen die von Suchmaschinen-Crawlern. Leider haben Content Creator, die oft darauf angewiesen sind, dass Menschen ihre Websites besuchen, um Geld zu verdienen, das Nachsehen, da KI-Tools im Vergleich zur herkömmlichen Suche nur selten auf die von ihnen durchsuchten Websites verweisen.

Was ist die Suchindexierung?

Die Suchindexierung ist wie die Erstellung eines Kartenkatalogs für das Internet, damit eine Suchmaschine weiß, wo im Internet Informationen abgerufen werden können, wenn eine Person danach sucht. Sie ist auch mit dem Index am Ende eines Buches vergleichbar, der alle Stellen im Buch auflistet, an denen ein bestimmtes Thema oder eine bestimmte Formulierung erwähnt wird.

Die Indexierung konzentriert sich hauptsächlich auf den auf der Seite angezeigten Text und auf die Metadaten* über die Seite, die Benutzer nicht sehen. Wenn Suchmaschinen Seiten indexieren, erfassen sie alle Wörter – außer z. B. „a“, „an“ und „the“ bei Google. Wenn Benutzer nach diesen Wörtern suchen, durchsucht die Suchmaschine in ihrem Index alle Seiten, in denen diese Wörter auftauchen und wählt die relevantesten aus.

*Unter Metadaten versteht man im Kontext der Suchindexierung Daten, die Suchmaschinen sagen, worum es in einer Webseite geht. Auf den Ergebnisseiten der Suchmaschinen werden oft Meta-Titel und Meta-Beschreibung angezeigt, nicht die sichtbaren Inhalte einer Webseite..

Wie funktionieren Webcrawler?

Das Internet verändert sich und wächst ständig. Da man nicht genau wissen kann, wie viele Webseiten es insgesamt im Internet gibt, gehen Webcrawler-Bots von einem Ausgangspunkt oder einer Liste bekannter URLs aus. Sie durchsuchen zuerst die Webseiten unter diesen URLs. Während sie diese Webseiten durchsuchen, finden sie Hyperlinks zu anderen URLs und fügen diese zur Liste der Seiten hinzu, die als nächstes durchsucht werden.

Angesichts der großen Anzahl von Webseiten im Internet, die für die Suche indexiert werden könnten, könnte dieser Vorgang fast beliebig lange dauern. Ein Webcrawler folgt jedoch bestimmten Richtlinien, durch die er selektiver vorgeht, zum Beispiel bei der Frage, welche Seiten er durchsuchen soll, in welcher Reihenfolge er diese Seiten durchsuchen soll und wie oft er sie erneut durchsuchen soll, um nach Aktualisierungen von Inhalten zu suchen.

Die relative Bedeutung jeder Webseite: Die meisten Webcrawler durchsuchen nicht das gesamte öffentlich zugängliche Internet und sollen dies auch nicht tun. Sie entscheiden vielmehr, welche Seiten zuerst durchsucht werden sollen, und zwar basierend auf der Anzahl der anderen Seiten, die auf diese Seite verweisen, der Anzahl der Besucher dieser Seite und anderen Faktoren, die darauf hinweisen, dass die Seite wahrscheinlich wichtige Informationen enthält.

Die Überlegung dahinter ist, dass eine Webseite, die von vielen anderen Webseiten erwähnt wird und viele Besucher anlockt, wahrscheinlich qualitativ hochwertige, zuverlässige Informationen enthält, und es daher besonders wichtig ist, dass die jeweilige Suchmaschine sie indexiert – so wie eine Bibliothek dafür sorgt, dass sie viele Exemplare eines Buches hat, das von vielen Personen ausgeliehen wird.

Erneutes Aufrufen von Webseiten: Inhalte im Internet werden ständig aktualisiert, entfernt oder an neue Stellen verschoben. Webcrawler müssen die Seiten regelmäßig erneut besuchen, damit sichergestellt ist, dass die neueste Version des Inhalts indexiert wird.

Robots.txt-Einstellungen: Webcrawler können auch entscheiden, welche Seiten basierend auf dem robots.txt-Protokoll (auch bekannt als das Robots-Exclusion-Protokoll) durchsucht werden sollen. Bevor sie eine Webseite durchsuchen, überprüfen sie normalerweise die auf dem Webserver dieser Seite gehostete robots.txt-Datei. In der robots.txt-Datei werden die Regeln für alle Bots festgelegt, die auf die gehostete Website oder Anwendung zugreifen. Diese Regeln definieren, welche Seiten der Websitebetreiber den Bots zum Crawlen freigibt und welchen Links sie folgen dürfen. Sehen Sie sich als Beispiel die robots.txt-Datei von Cloudflare.com an.

Alle diese Faktoren werden innerhalb der proprietären Algorithmen, die jede Suchmaschine in ihren Spider-Bots einsetzt, unterschiedlich gewichtet. Webcrawler unterschiedlicher Suchmaschinen verhalten sich auch unterschiedlich, obwohl das Endziel das gleiche ist: die Inhalte von Webseiten herunterladen und indexieren. Nicht alle Webcrawler befolgen die Anweisungen, die in den robots.txt-Dateien festgelegt sind.

Warum werden Webcrawler „Spider“ genannt?

Das Internet, oder zumindest der Teil davon, auf den die meisten Benutzer zugreifen, wird auch als World Wide Web bezeichnet – daher das Kürzel „www“ bei den meisten Website-URLs. Es war nur eine logische Konsequenz, Suchmaschinen-Bots als „Spiders“ (Spinnen) zu bezeichnen, denn sie krabbeln überall im Internet herum, so wie echte Spinnen auf Spinnweben herumkrabbeln.

Sollten Webcrawler-Bots immer auf Websites zugreifen dürfen?

Das hängt von der Website und von einer Reihe von Faktoren ab. Webcrawler brauchen Serverressourcen, um Inhalte zu indexieren: Sie stellen Anfragen, auf die der Server antworten muss – genau wie ein Website-Besucher oder andere Bots, die auf eine Website zugreifen. Je nach Menge der Inhalte auf den einzelnen Seiten oder der Zahl der Seiten kann es im Interesse des Website-Betreibers sein, die Suchindexierung nicht zu oft zu erlauben, da eine große Zahl von Indexierungsdurchgängen den Server überlasten und/oder die Bandbreitenkosten in die Höhe treiben kann.

Unter Umständen wollen Entwickler oder Unternehmen, dass manche Webseiten nur auffindbar sind, wenn einem Nutzer bereits ein Link zu der Seite mitgeteilt wurde (ohne der Seite eine Paywall oder eine Anmeldung vorzuschalten). Das kann beispielsweise der Fall sein, wenn für eine Marketingkampagne eine spezielle Landingpage erstellt wurde, das Unternehmen aber nicht möchte, dass Personen darauf zugreifen können, die nicht zur Zielgruppe gehören. So kann das Unternehmen die Botschaften anpassen oder die Performance der Seite genau messen. In solchen Fällen kann die Startseite mit einem „No Index“-Tag versehen werden, damit sie nicht in den Suchergebnissen auftaucht. Es kann auch ein „Disallow“ (Ablehnen)-Tag in der Seite oder in der robots.txt-Datei eingefügt werden. Dann wird sie von Suchmaschinen-Spidern überhaupt nicht durchsucht.

Webadministratoren wollen möglicherweise auch nicht, dass LLMs mit ihren Inhalten trainiert werden. Die Inhalte einer Website sind unter Umständen urheberrechtlich geschützt. In manchen Fällen kann das Erfassen von Webinhalten zwecks LLM-Trainings dem Geschäftsmodell einer Website zuwiderlaufen – zum Beispiel, wenn die Website einzigartige Inhalte hostet und Werbeflächen verkauft. In diesem Fall sollten Administratoren die Aktivität von KI-Crawler-Bots gezielt einschränken oder dafür Gebühren erheben, ohne Suchmaschinen-Bots das kostenlose Crawlen zu verbieten.

Es kann die verschiedensten Gründe dafür geben, dass der Besitzer einer Website nicht möchte, dass Webcrawler-Bots einen Teil oder alle seine Websites durchsuchen. Beispielsweise möchte eine Website, die Nutzern die Möglichkeit zur Suche innerhalb der Website bietet, möglicherweise die Suchergebnisseiten blockieren, da diese den meisten Nutzern nicht dienlich sind. Andere automatisch generierte Seiten, die nur einem oder wenigen bestimmten Nutzern dienlich sind, sollten ebenfalls blockiert werden.

Was ist der Unterschied zwischen Webcrawling und Web Scraping?

Web Scraping, Data Scraping oder Content Scraping bedeutet, dass ein Bot den Inhalt einer Website ohne Erlaubnis herunterlädt, oft mit der Absicht, diesen Inhalt für einen böswilligen Zweck zu verwenden.

Web-Scraping ist meist viel zielgerichteter als Webcrawling. Web-Scraper können nur nach bestimmten Seiten oder bestimmten Websites suchen, während Webcrawler weiteren Links folgen und Seiten fortlaufend crawlen.

Web-Scraper-Bots ignorieren unter Umständen auch die Belastung von Webservern, während Webcrawler, vor allem die von großen Suchmaschinen, eher die robots.txt-Datei beachten und ihre Anfragen begrenzen, um den Webserver nicht zu überfordern.

Wie wirken sich Webcrawler auf SEO aus?

SEO steht für Suchmaschinenoptimierung, und bei dieser Disziplin geht es um die Aufbereitung von Inhalten für die Suchindexierung, damit eine Website in den Ergebnissen der Suchmaschinen höher angezeigt wird.

Wenn Spider-Bots eine Website nicht durchsuchen, kann sie nicht indexiert werden, und sie wird in den Suchergebnissen nicht angezeigt. Wenn ein Besitzer einer Website daher organischen Traffic aus den Suchergebnissen erhalten möchte, ist es besonders wichtig, dass er Web-Crawler-Bots nicht blockiert.

Jedoch hat sich das Verhältnis zwischen SEO und Web-Traffic verändert. Der verstärkte Einsatz von KI-Chatbots und KI-generierten Ergebnissen verringert den Traffic selbst für hochrangige Seiten. In der Zwischenzeit fordern KI-Crawler-Bots deutlich häufiger Webinhalte an als herkömmliche Suchmaschinen-Crawler. Webcrawler bieten Websites immer noch Vorteile, aber Websites, die auf Einnahmen aus dem Web-Traffic angewiesen sind, können durch KI-Crawler negativ beeinflusst werden.

Liste von Suchmaschinen-Webcrawlern

Die Bots der wichtigsten Suchmaschinen heißen:

  • Googlebot (eigentlich zwei Crawler, Googlebot Desktop und Googlebot Mobile, für Desktop- und mobile Suche)
  • Bing: Bingbot
  • DuckDuckGo: DuckDuckBot
  • Yahoo! Suche: Slurp
  • Yandex: YandexBot
  • Baidu: Baiduspider
  • Exalead: ExaBot

Es gibt auch viele andere Webcrawler-Bots, von denen einige nicht zu einer Suchmaschine gehören.

Liste von KI-Crawlern

Dies sind einige der häufigsten KI-Crawler-Bots, die Daten für LLM sammeln:

  • OpenAI: GPTBot
  • OpenAI: ChatGPT-User (für Echtzeit-Abruf)
  • Meta: Meta-ExternalAgent
  • Google: GoogleOther
  • Huawei: PetalBot
  • Amazon: Amazonbot
  • ByteDance: Bytespider
  • Claude: Claudebot

Die Cloudflare-Liste verifizierter Bots finden Sie hier.

Warum ist es für das Bot-Management wichtig, das Webcrawling zu berücksichtigen?

Schädliche Bots können viel Schaden anrichten, von schlechten Nutzererfahrungen über Serverausfälle bis hin zum Datendiebstahl. Beim Blockieren von schädlichen Bots ist es allerdings wichtig, dass vertrauenswürdige Bots, wie z. B. Webcrawler von Suchmaschinen, weiterhin auf Webseiten zugreifen können. Mit dem Bot-Management von Cloudflare haben gute Bots Zugang, während schädlicher Bot-Traffic ferngehalten wird. Das Produkt führt eine automatisch aktualisierte Positivliste vertrauenswürdiger Bots, z. B. Webcrawlern, damit diese nicht blockiert werden.

Obwohl Websites weiterhin vom Crawling durch Suchmaschinen profitieren können, beantworten Suchmaschinen und KI-Tools häufig Nutzerfragen, ohne die Nutzer auf Websites weiterzuleiten. Dadurch wird der Traffic, den eine Website erhält, erheblich reduziert. KI-Crawler neigen dazu, wesentlich häufiger zu crawlen als Suchmaschinen-Bots, was die Kosten für Websites in die Höhe treiben kann. Um Inhalte-Ersteller zu schützen, ermöglicht Cloudflare Website-Betreibern, zwischen dem Zulassen von KI-Crawlern, deren vollständiger Blockierung oder dem Erheben von Gebühren für den Zugriff auf ihre Inhalte über eine Funktion namens Pay-per-Crawl zu wählen.

FAQs

Was ist ein Webcrawler?

Ein Webcrawler, auch als Spider bekannt, ist ein automatisiertes Programm oder Bot, das überwiegend von Suchmaschinen wie Google und Bing verwendet wird, um Webinhalte im Internet zu durchsuchen und zu katalogisieren. Seine Hauptfunktionen bestehen darin, den Inhalt von fast jeder Webseite zu sammeln und die Auffindbarkeit dieses Inhalts in den Suchergebnissen zu erleichtern.

Wie bestimmen Webcrawler, welche Seiten sie besuchen und indexieren sollen?

Webcrawler starten ihre Arbeit mit einer vordefinierten Liste bekannter Website-Adressen oder URLs. Beim Verarbeiten dieser Ausgangsseiten entdecken sie neue Hyperlinks und fügen diese ihrer Liste hinzu. Da das Internet riesig ist, priorisieren Crawler Seiten anhand von Faktoren wie der Anzahl eingehender Links oder des Traffics, da diese oft auf wertvolle Inhalte hinweisen. Sie lesen und befolgen auch Anweisungen in robots.txt-Dateien, die von Website-Besitzern erstellt werden und festlegen, auf welche Teile ihrer Website Bots zugreifen dürfen.

Was ist der Zweck der Suchindexierung?

Die Suchindexierung ist vergleichbar mit der Erstellung eines umfassenden Bibliothekskatalogs für das Internet. Dieser Prozess ermöglicht es Suchmaschinen, relevante Informationen schnell zu finden und zu präsentieren, wenn ein Nutzer eine Suche durchführt. Der Indexierungsprozess konzentriert sich hauptsächlich auf den auf einer Seite sichtbaren Text und seine Metadaten.

Wie funktionieren KI-Webcrawler und zu welchen Zwecken werden sie verwendet?

KI-Webcrawler sind eine spezielle Art von Bot, die aus zwei Hauptgründen auf Webinhalte zugreifen. Zunächst sammeln sie große Mengen an Inhalten, um große Sprachmodelle (LLMs) zu trainieren, was diesen Modellen hilft, ihre Genauigkeit und Nützlichkeit bei der Generierung von Antworten zu verbessern. Zweitens verwenden einige KI-Assistenten KI-Crawler, um Live-Informationen aus dem Internet zu beziehen und die Antworten, die sie den Nutzern geben, zu ergänzen.

Warum könnte ein Website-Besitzer den Zugriff eines Webcrawlers einschränken, und wie kann er das tun?

Website-Besitzer könnten den Zugriff von Crawlern einschränken, um Serverressourcen zu schonen, da das Crawlen Bandbreite verbraucht und Serverantworten erfordert. Sie könnten auch den Zugang zu Seiten einschränken, die nicht für die öffentliche Suche bestimmt sind, wie zum Beispiel bestimmte Marketing-Landingpages, auf denen sie den Zugriff kontrollieren oder die genaue Performance messen möchten. Einige Administratoren möchten möglicherweise verhindern, dass KI-Modelle mit ihren urheberrechtlich geschützten oder proprietären Inhalten trainiert werden, die Einnahmen durch Werbung generieren. Eigentümer können verhindern, dass bestimmte Seiten in den Suchergebnissen erscheinen, indem sie ein „noindex“-Tag hinzufügen oder das Crawling mit einem „disallow“-Tag in der robots.txt-Datei vollständig blockieren.

Was ist der Unterschied zwischen Web-Crawling und Web-Scraping?

Web-Crawling wird im Allgemeinen von legitimen Bots, wie denen von Suchmaschinen, durchgeführt, um Inhalte für Suchergebnisse zu indexieren. Web-Scraping hingegen könnte das unrechtmäßige Sammeln von Website-Inhalten umfassen. Diese Scraper könnten die robots.txt-Regeln missachten, die Belastung der Server durch ihre Anfragen ignorieren und die Verwendung von Originalinhalten auf unautorisierte Weise erleichtern. KI- und Suchmaschinenunternehmen, die Web-Scraper verwenden, sollten die Erlaubnis zum Scrapen von Inhalten einholen und die Urheber für die Nutzung ihrer Inhalte bezahlen.

Warum ist die Verwaltung von Webcrawler-Bots für die Suchmaschinenoptimierung (SEO) wichtig?

Ein effektives Bot-Management ist entscheidend für SEO, da Webcrawler, wenn sie am Zugriff auf eine Website gehindert werden, die Website nicht indexieren können und sie folglich nicht in den Suchergebnissen erscheint. Für Website-Besitzer, die organischen Traffic anstreben, ist es entscheidend, sicherzustellen, dass gute Bots wie Suchmaschinen-Crawler auf ihre Inhalte zugreifen und diese indexieren können.