What is retrieval-augmented generation (RAG)?

Retrieval-augmented generation (RAG) is a method for improving large language models (LLMs) by providing them with access to internal and external data sources that were not part of their original training.

What are the main benefits of using RAG?

RAG allows teams to query organizational knowledge and third-party resources using natural language, which can help avoid interruptions to colleagues and reduce the time spent on manual searches. It also democratizes the enhancement of AI models from vendors like OpenAI or Anthropic, without the need for the time, expense, or technical resources required for full retraining.

What are the steps for building a RAG pipeline?

The steps for building a RAG pipeline are: conceiving potential use cases, identifying appropriate data sources, and building the actual RAG pipeline. Pipeline construction involves ingestion of content, using an embedding model to convert text into vectors, storing embeddings and metadata in a vector database, enabling query retrieval, and facilitating response generation.

What are some examples of high-impact use cases for RAG?

High-impact RAG use cases include creating: a self-service billing assistant, a customer-facing policy assistant, a compliance assistant for HR guidelines, a sales RFP assistant, and an interactive customer onboarding guide. These use cases can help solve tangible problems, reduce repetitive tasks, and improve consistency across teams.

What kind of data sources are suitable for a RAG system?

RAG-worthy data sources should be accurate, regularly maintained, and structured enough to be broken into logical sections, such as Markdown files, PDFs, HTML documents, or JSON files. They should also answer common questions, like product FAQs or internal process guides.

What are the five parts of a typical RAG workflow?

A typical RAG workflow consists of five parts: ingestion, embedding, vector database storage, query retrieval, and response generation.

How can you measure the success of a RAG pipeline?

The success of a RAG pipeline can be measured using key performance indicators (KPIs) such as retrieval accuracy, response relevance and factuality, latency, user adoption and satisfaction, and data governance. Continuous user feedback and performance metric analysis can help improve the implementation over time.

What is the benefit of using an embedding model in a RAG pipeline?

An embedding model, such as BGE embedding models, converts text chunks into numerical vectors that capture their semantic meaning. These vectors are then stored in a vector database for efficient querying and filtering.

What does Cloudflare AI Search do to simplify RAG workflow creation?

Cloudflare AI Search is a fully managed RAG pipeline that automates ingestion, chunking, embedding, and storage in Vectorize. It also handles semantic retrieval and response generation with Workers AI, which removes the need for manual infrastructure management.

How to enhance AI models with RAG (retrieval-augmented generation)

Was versteht man unter Retrieval Augmented Generation (RAG) und warum ist diese Technologie nützlich?

Bei Retrieval Augmented Generation (RAG) handelt es sich um ein Verfahren, das bei der Entwicklung künstlicher Intelligenz (KI) verwendet wird. Es verbessert Large Language Models (LLM), indem es ihnen Zugriff auf interne und externe Datenquellen gewährt, die nicht in ihrem ursprünglichen Training enthalten waren – beispielsweise externes Forschungsmaterial, Produktdokumentation oder die interne Wissensdatenbank eines Unternehmens.

Mithilfe von RAG können Mitarbeitende in natürlicher Sprache maßgebliches Unternehmenswissen und Ressourcen von Drittanbietern selbst abrufen. Damit vermeiden sie es, Kollegen nicht bei der Arbeit zu stören oder zeitaufwendige Suchen in fragmentierten Systemen durchzuführen.

Da das LLM beim seinem Einsatz zusätzliche Daten verwendet, sind Halluzinationen weniger wahrscheinlich. Außerdem nehmen alle auf das gleiche Wissensfundament Bezug. Man erhält verlässlichere Antworten von dem LLM, weil dieses auf fundierte Informationen zugreifen kann.

Welche Schritte sind erforderlich, um erfolgreiche RAG-Pipelines zu erstellen?

RAG hilft Unternehmen, die von ihnen verwendeten KI-Modelle von Anbietern wie OpenAI oder Anthropic zu verbessern, ohne den zusätzlichen Zeit-, Kosten- und technischen Ressourcenaufwand, der für das Retraining auf spezifisches Wissen für den beabsichtigten Anwendungsfall erforderlich wäre. Daher demokratisiert RAG die LLM-Verbesserung.

Glücklicherweise erfordert der Aufbau von RAG-Pipelines keine umfangreiche Infrastruktur oder tiefgreifende Expertise im Bereich Machine Learning. Der Einstieg ist deshalb kein Problem. Es handelt sich um einen einfachen Prozess in drei Schritten: die Ermittlung von Anwendungsfällen, die Auswahl geeigneter Datenquellen und die Erstellung der eigentlichen RAG-Pipeline.

Schritt 1: Erarbeiten Sie potentielle Anwendungsfälle für RAG

Ermitteln Sie zunächst, welche Datenquellen für Teams am hilfreichsten wären, wenn sie diese mithilfe von Natural Language Prompting abrufen könnten. Konzentrieren Sie sich auf Reibungspunkte mit hoher Auswirkung, einschließlich Ressourcen, die Teams häufig für Antworten heranziehen, Systeme, in denen sie oft auf Engpässe stoßen, oder Prozesse, bei denen immer wieder dieselben Fragen auftauchen.

Um die vielversprechendsten RAG-Anwendungsfälle zu finden, stellen Sie die folgenden Fragen an Ihre internen Teams:

Welche typischen Anfragen zu institutionellem Wissen befinden sich im Kopf von Mitarbeitenden oder in schwer zugänglichen Dokumenten? Dazu zählen unter anderem Standardprozesse und die Behebung gängiger Probleme. Mithilfe von RAG könnte ein selbst zu bedienender Abrechnungsassistent häufig gestellte Fragen von Nutzern beantworten, z. B.: „Wo kann ich bisherige Rechnungen herunterladen?“
Welche Fragen in den verschiedenen Abteilungen häufig nach oben weitergeleitet? Es werden beispielsweise häufig Fragen zu sich verändernden technischen Richtlinien gestellt. So kann mithilfe von RAG ein den Kunden zugänglicher Assistent die Rückerstattungsrichtlinie eines Unternehmens erläutern.
Für welche Dateien oder Aufgaben sind manuelle und wiederholte Abfragen an verschiedene Stellen wie Confluence, SharePoint und interne Wikis erforderlich? Ein RAG-fähiger Compliance-Assistent könnte zur Beantwortung der Frage „Welche Schulungsmodule sind für neue Mitarbeitende in Europa erforderlich?“ die Richtlinien für Personalmanagement des Unternehmens zu Rate ziehen.
Welche formalen Anforderungen oder Vorgaben müssen erfüllt werden? Häufige Anwendungsfälle sind Antworten auf Audits, Ausschreibungen und Compliance. Mit RAG kann ein KI-Assistent anhand Compliance-geprüfter Vorlagen die benötigten Unterlagen erstellen.
Welche Informationen gelten für alle? Unternehmensschulungen und Einführungsunterlagen sind beispielsweise immer hilfreich. Ein interaktiver Kunden-Onboarding-Leitfaden könnte RAG nutzen, um neue Nutzer mithilfe der aktuellsten Anleitungen durch die Schulungsschritte zu führen.

Priorisieren Sie RAG-Anwendungsfälle, bei denen die Kombination von generativem Denken mit internem und externem Wissen konkrete Probleme lösen, Kontextwechsel reduzieren, repetitive Aufgaben eliminieren und die Durchgängigkeit zwischen Teams verbessern kann.

Schritt 2: Identifizieren Sie intern RAG-würdige Datenquellen

RAG-Systeme sind nur so gut wie die Daten, auf die sie zugreifen. Deshalb wirken sich die Qualität, Vollständigkeit, Governance und Struktur der verfügbaren Datenquellen direkt auf die Qualität der Antwort aus.

RAG-würdige Daten müssen folgende Kriterien erfüllen:

Sie beantworten häufig gestellte Fragen: Ideale Quellen sind unter anderem Produkt-FAQ, Richtliniendokumentation, Leitfäden für interne Prozesse und Compliance-Darstellungen.
Sie sind präzise und werden aktuell gehalten: Achten Sie auf eine Dokumentation mit klar umrissener Zuständigkeit und regelmäßigen Updates.
Ihre Strukturierung reicht für das Chunking aus: Markdown-Dateien, PDF, HTML-Dokumente, JSON-Dateien und Wikis können alle in logische Abschnitte unterteilt werden. Wenn Datensätze Screenshots oder bildbasierte PDF enthalten, können Tools wie Workers AI von Cloudflare Bilder in Vektoren umwandeln, die von LLM lesbar sind.

Vermeiden Sie Datenquellen, die Rauschen oder Inkonsistenzen verursachen, einschließlich:

Daten in unstrukturierten und unübersichtlichen Formaten wie Slack-Threads oder nicht aufbereitete E-Mail-Ketten, wenn diese nicht bereinigt, geprüft und formatiert wurden
Dynamische und sich ständig verändernde Datensätze wie Dashboards mit Live-Kennzahlen
Doppelte, widersprüchliche oder veraltete Dateien, die den Abruf erschweren und Fehler verursachen können

Arbeiten Sie mit internen Stakeholdern und der IT zusammen, um alle Datenquellen zu erfassen, zu bereinigen und eine fortlaufende Verantwortlichkeit zuzuweisen.

Schritt 3: Erstellen Sie eine RAG-Pipeline

Verarbeiten und organisieren Sie als Nächstes Datensätze in einer Struktur, die für die semantische Suche geeignet ist. Ein typischer RAG-Workflow umfasst fünf Schritte: Erfassung, Einbettung, Speicherung in einer Vektordatenbank, Abfrageabruf und Antwortgenerierung.

1. Erfassung

Beginnen Sie mit dem Sammeln relevanter Dateien und Dokumente aus gemeinsam genutzten Repositories, Speicher-Buckets oder Content-Systemen. Konzentrieren Sie sich dann auf:

Chunking: Um eine präzise Suche zu ermöglichen, teilen Sie Inhalte programmatisch in logische Abschnitte auf, die semantisch kohärente Einheiten bilden (z. B. Absätze, Überschriften, FAQ-Einträge und Codeblöcke).
Normalisierung: Bereinigen und Standardisieren von Daten in verschiedenen Formaten (z. B. PDF in Text, HTML in Markdown).
Metadaten-Tagging: Fügen Sie nützliche Metadaten (z. B. Eigentümer, Erstellungsdatum, System) hinzu, um einen gefilterten Abruf zu unterstützen.

2. Einbettung

Verwenden Sie ein Einbettungsmodell, wie z. B. BGE-Einbettungsmodelle, um jeden Textblock in einen numerischen Vektor umzuwandeln, der seine semantische Bedeutung erfasst.

3. Vektordatenbankspeicher

Speichern Sie Einbettungen und alle zugehörigen Metadaten in einer skalierbaren Vektordatenbank, wie z. B. Cloudflare Vectorize. Dies ermöglicht eine effiziente Abfrage und Filterung für umfangreiche Wissensdatenbanken.

4. Abfrageabruf

Wenn ein Nutzer einen Prompt sendet, wandelt das System die Abfrage in einen Vektor um, durchsucht die Vektordatenbank nach geeigneten, semantisch ähnlichen Blöcken und wendet Filter auf der Grundlage von Metadaten an, um die Abruffunktion zu optimieren, beispielsweise um den Zugriff auf bestimmte Informationen anhand von Rolle oder Abteilung zu beschränken.

5. Antwortgenerierung

Schließlich werden die abgerufenen Chunks als zusätzlicher Kontext in den Prompt eingefügt, bevor sie an das LLM weitergeleitet werden. Das LLM nutzt diesen Kontext, um eine sinnvolle und genaue Antwort zu generieren, die auf internen und externen Daten basiert.

Sollten Sie bei der Ausführung und Implementierung von RAG mit der IT-Abteilung zusammenarbeiten?

Die Entwicklung einer wertvollen RAG-Pipeline ist eine gemeinschaftliche Aufgabe, die das Engagement aller erfordert. Sie ist jedoch auf die IT angewiesen, um die Umsetzung zu leiten, die Infrastruktur – etwa Datenpipelines, Skalierung der Vektordatenbank und Zugriffskontrollen – zu verwalten und Systeme zu integrieren.

Und doch kann die IT-Abteilung den Prozess nicht allein verantworten. Beginnen Sie mit der Abstimmung von funktionsübergreifenden Teams, einschließlich IT, Fachexperten und Interessenvertretern. Gemeinsam sollten diese Teams Anwendungsfälle und vertrauenswürdige Datenquellen identifizieren, Standards für die Inhaltsautorität definieren und Verantwortlichkeiten zuweisen, um sicherzustellen, dass Datensätze korrekt und aktuell bleiben.

Wenden Sie Zugriffskontrollen an, damit nur Nutzer in relevanten Positionen oder Geschäftsbereichen Zugriff auf sensible Daten haben. Sorgen Sie außerdem dafür, dass das gesamte System mit Verschlüsselungs- und Compliance-Leitplanken ausgestattet ist.

Beginnen Sie mit einem Pilotprojekt, weiten Sie auf Grundlage der dort verzeichneten Ergebnisse den Anwendungsbereich aus und nehmen Sie zu guter Letzt eine abteilungsübergreifende Skalierung vor.

Wie lässt sich der Erfolg Ihrer RAG-Pipeline am besten messen?

Integrieren Sie von Anfang an Erfolgskennzahlen in den Prozess, um die Effektivität und den geschäftlichen Nutzen des RAG-Systems zu evaluieren.

Bewerten Sie das System insbesondere anhand von KPIs, wie beispielsweise:

Abrufgenauigkeit: Werden die richtigen Dokumente und Antworten geliefert?
Relevanz und Faktentreue der Antworten: Erhalten Nutzer aktuelle und zuverlässige Antworten?
Latenz: Werden Antworten in einem akzeptablen Zeitraum bereitgestellt?
Nutzerakzeptanz und -zufriedenheit: Nutzen die Mitarbeitenden das System tatsächlich und werden sie dadurch effizienter?
Data Governance: Werden Leitplanken für Sicherheit und Compliance aktualisiert, wenn neue Quellen hinzukommen?

Die RAG-Bewertung beinhaltet häufig eine Human-in-the-Loop-Validierung, um die Genauigkeit zu überprüfen. Um die Implementierung der RAG-Pipeline im Laufe der Zeit zu verbessern, ist es wichtig, kontinuierlich Nutzer-Feedback einzuholen, Performance-Metriken in Bezug auf Abfrage- und Abrufprotokolle zu analysieren, die Inhaltshygiene zu überprüfen und den Fortschritt im Hinblick auf die Geschäftsziele zu bewerten.

Wie können Sie die Erstellung von RAG-Workflows vereinfachen?

Der manuelle Aufbau einer RAG-Pipeline erfordert das Zusammenfügen von Speicher, Vektordatenbanken, Einbettungsmodellen, LLMs und benutzerdefinierter Indizierungs- bzw. Abruflogik sowie die Wartung des Systems bei Datenänderungen. Dies erfordert Zeit und Zusammenarbeit, und die Komplexität dieser Aufgaben kann Teams von anderen wichtigen Projekten ablenken. Für einige Organisationen ist die Einführung von RAG trotz ihrer potenziellen Vorteile unpraktisch.

Die Cloudflare-Lösung AI Search (früher AutoRAG) hilft hier weiter.

AI Search ist eine vollständig verwaltete RAG-Pipeline, die auf der Entwicklerplattform von Cloudflare aufgebaut ist. In nur vier Schritten können Nutzer Datenquellen wie Unternehmenswebsites, E-Commerce-Produktkataloge und Entwicklerdokumenten verbinden. AI Search übernimmt Aufnahme, Markdown-Konvertierung, Chunking, Einbettung und Speicherung in Vectorize. Anschließend führt sie eine semantische Abfrage durch und generiert Antworten mit Workers AI.

AI Search beseitigt die hohe Infrastrukturbelastung beim Aufbau von RAG-Pipelines, indem Skalierung, Speicherung und KI-Inferenz automatisiert werden – bei gleichzeitig sicherem und regelkonformem Zugriff auf interne Datenquellen innerhalb der RAG-Systeme. Zusätzlich reindiziert AI Search kontinuierlich Daten im Hintergrund, wodurch Antworten aktuell bleiben, wenn interne Quellen aktualisiert werden.

Warum sollten Sie RAG verwenden?

Die Daten Ihres Unternehmens sind ein wichtiger strategischer Vorteil. Der Aufbau einer sicheren RAG-Pipeline ermöglicht den Teammitgliedern und Kunden den Zugriff auf diese Daten, indem die LLMs des Unternehmens mit den spezifischen Richtlinien, Prozessen und der Wissensdatenbank erweitert werden, die Ihr Unternehmen und Ihren Markt differenzieren.

Einfach ausgedrückt: RAG verbessert gängige Modelle durch internes Unternehmenswissen und freigegebene Ressourcen von Drittanbietern, um einen KI-Vorteil in Echtzeit zu erzielen.

Ob manuell oder mit AI Search entwickelt wird, beginnen Sie mit den richtigen Anwendungsfällen, kuratieren Sie hochwertige Daten und arbeiten Sie zusammen, um schnelle, genaue und fundierte Antworten zu liefern.

Kann's losgehen? Erstellen Sie Ihren eigenen internen RAG in vier einfachen Schritten.

FAQs

Was versteht man unter Retrieval-Augmented Generation (RAG)?

Retrieval-Augmented Generation (RAG) ist eine Methode zur Verbesserung großer Sprachmodelle (LLMs), indem ihnen der Zugriff auf interne und externe Datenquellen ermöglicht wird, die nicht Teil ihres ursprünglichen Trainings waren.

Was sind die wichtigsten Vorteile der Verwendung von RAG?

RAG ermöglicht es Teams, Organisationswissen und Ressourcen von Drittanbietern mithilfe natürlicher Sprache abzufragen. Dies kann dazu beitragen, Unterbrechungen der Kollegen zu vermeiden und den Zeitaufwand für manuelle Suchen zu reduzieren. Es demokratisiert auch die Verbesserung von KI-Modellen von Anbietern wie OpenAI oder Anthropic, ohne dass der Zeit-, Kosten- oder technische Ressourcenaufwand für ein vollständiges Neutraining erforderlich ist.

Welche Schritte sind für den Aufbau einer RAG-Pipeline erforderlich?

Die Schritte zum Aufbau einer RAG-Pipeline sind: Konzipierung potenzieller Anwendungsfälle, Identifizierung geeigneter Datenquellen und Erstellung der eigentlichen RAG-Pipeline. Der Pipelineaufbau umfasst die Aufnahme von Inhalten, die Verwendung eines Einbettungsmodells zur Konvertierung von Text in Vektoren, die Speicherung von Einbettungen und Metadaten in einer Vektordatenbank, die Ermöglichung des Abrufens von Abfragen und die Erleichterung der Antwortgenerierung.

Was sind einige Beispiele für wirkungsvolle Anwendungsfälle für RAG?

Zu den wichtigsten Anwendungsfällen für RAG gehören die Erstellung von: Self-Service-Abrechnungsassistenten, kundenorientierten Richtlinienassistenten, Compliance-Assistenten für Personalrichtlinien, RFP-Assistenten für den Vertrieb und interaktiven Leitfäden zum Onboarding von Kunden. Diese Anwendungsfälle können dazu beitragen, konkrete Probleme zu lösen, repetitive Aufgaben zu reduzieren und die Konsistenz zwischen den Teams zu verbessern.

Welche Arten von Datenquellen sind für ein RAG-System geeignet?

RAG-fähige Datenquellen sollten präzise und regelmäßig gewartet sein sowie über eine Struktur verfügen, die es ermöglicht, sie in logische Abschnitte zu unterteilen, wie beispielsweise Markdown-Dateien, PDFs, HTML-Dokumente oder JSON-Dateien. Sie sollten auch häufig gestellte Fragen beantworten, wie Produkt-FAQs oder Anleitungen zu internen Prozessen.

Was sind die fünf Teile eines typischen RAG-Workflows?

Ein typischer RAG-Workflow besteht aus fünf Teilen: Erfassung, Einbettung Speicherung in einer Vektordatenbank, Abfrageabruf und Antwortgenerierung.

Wie lässt sich der Erfolg einer RAG-Pipeline messen?

Der Erfolg einer RAG-Pipeline kann anhand von Schlüssel-Performance-Indikatoren (KPIs) wie Abrufgenauigkeit, Antwortrelevanz und Faktentreue, Latenzzeit, Nutzerakzeptanz und -zufriedenheit sowie Daten-Governance gemessen werden. Kontinuierliches Nutzerfeedback und die Analyse von Performance-Metriken können dazu beitragen, die Implementierung im Laufe der Zeit zu verbessern.

Was ist der Vorteil der Verwendung eines Einbettungsmodells in einer RAG-Pipeline?

Ein Einbettungsmodell, wie z. B. BGE-Einbettungsmodelle, wandelt Textblöcke in numerische Vektoren um, die ihre semantische Bedeutung erfassen. Diese Vektoren werden dann zur effizienten Abfrage und Filterung in einer Vektordatenbank gespeichert.

Was unternimmt Cloudflare AI Search, um die Erstellung von RAG-Workflows zu vereinfachen?

Cloudflare AI Search ist eine vollständig verwaltete RAG-Pipeline, die die Aufnahme, Chunking, Einbettung und Speicherung von Daten in Vectorize automatisiert. Sie übernimmt auch die semantische Abfrage und Antwortgenerierung mit Workers AI, wodurch die Notwendigkeit für eine manuelle Infrastrukturverwaltung entfällt.

Wie man KI-Modelle mit RAG (Retrieval Augmented Generation) verbessert