Die AI-Inferenz-Plattform

Workers AI ermöglicht es Ihnen, KI-Inferenz global mit einem API-Aufruf auszuführen. Keine GPUs zu verwalten, keine Kapazitätsplanung. Nur intelligente maschinelle Lernmodelle, die dort laufen, wo sie benötigt werden, auf Cloudflares globalem Netzwerk.

Start building for free View docs

Serverless-Preisgestaltung

Abrechnung pro Inferenz ohne Stillstandskosten. Keine Vermutungen.

Umfassender Modellkatalog

50+ Modelle laufen nahe bei den Nutzern in 200+ Städten

weit verbreitete Kompatibilität

Ein API-Aufruf, kompatibel mit jedem OpenAI SDK oder Aufgabentyp.

Skalieren Sie hoch und herunter

Inference ist schwer vorherzusagen und spikig in der Natur, im Gegensatz zum Training. Die GPU-Auslastung beträgt im Durchschnitt nur 20–40 % – wobei ein Drittel der Organisationen weniger als 15 % nutzt. Workers AI ermöglicht es Kunden, zu sparen, indem sie nur für die Nutzung zahlen. Keine Vermutungen oder Verpflichtungen zu Hardware, die ungenutzt bleibt.

What you pay for
on a hyperscaler

What you pay for
on Cloudflare

KI-Modelle sind leicht über Code, OpenAI SDK oder API zugänglich.

Testen, prototypen und bewerten Sie die neuesten LLMs mit der Geschwindigkeit und Zuverlässigkeit eines Produktionsumfelds, in Sekunden zugänglich.

Kimi K2.6

Mächtige Vision und autonomes Werkzeugaufruf-Modell

GLM 4.7 Flash

Schneller mehrsprachiger Agent mit Expertentoolaufruf

GPT-OSS-120B

Spezialisiert für das Coden und Debuggen

Llama 4 Scout

Ausgeglicher Allrounder für alltägliche Aufgaben

Try in Cloudflare AI Playground See all models

Führen Sie jedes KI-Modell mit einem API-Aufruf aus.

Rufen Sie jedes Modell direkt aus Ihrem Code mit einem einzigen Endpunkt auf. Workers AI übernimmt die Bereitstellung, Skalierung und Latenzoptimierung automatisch.

const response = await env.AI.run("@cf/moonshotai/kimi-k2.6", { messages: [
    { role: "system", content: "You are a friendly assistant" },
    { role: "user", content: "What is the origin of the phrase Hello, World" },
  ]}
);

Praktische KI am Edge

KI-Arbeitslasten direkt auf Cloudflare's globales Netzwerk ausführen — von LLMs bis Bildgenerierung und Einbettungen. Keine GPU-Cluster, keine Orchestrierungsschichten — nur schnelle, skalierbare Inferenz, wo immer Ihre Benutzer sind.

Workers AI

Entdecken Sie einen reichhaltigen Katalog mit 50+ fertigen Modellen

Praktische Beispiele im Einsatz

Bildgenerierung

Bildgenerierung, -manipulation und kreative Workflows ausführen, ohne die Verwaltung von GPU-Infrastruktur. Ideal für Content-Plattformen, soziale Apps und kreative Tools.

Sprach-zu-Text, in Echtzeit

Transkribieren, analysieren und Audiodaten ohne spezialisierte Infrastruktur erzeugen. Entwickelt für Sprachassistenten, Notiz-Apps und Medienverarbeitung.

Einbettungen

Erstellen Sie intelligente Suche, Empfehlungen und kontextbewusste Funktionen mithilfe von Vektor-Embeddings. Nahtlos integriert sich in Vectorize KI-Suche für vollständige KI-Workflows.

Große Sprachmodelle

Führen Sie eine breite Palette natürlicher Sprachverarbeitungsaufgaben aus. Verwenden Sie große Sprachmodelle für Textgenerierung, Klassifizierung, Fragebeantwortung und andere komplexe sprachbasierte Operationen über eine einfache API.