Skip to Content
DokumentationErweiterte FunktionenAnbieter-Routing

Anbieter-Routing

OfoxAI unterstützt eine Multi-Anbieter-Architektur, bei der dasselbe Modell über verschiedene Anbieterknoten bereitgestellt werden kann. Über Routing-Strategien steuern Sie, wie Anfragen verteilt werden.

Routing-Strategien

StrategieBeschreibungEinsatzgebiet
priorityNach Prioritätsreihenfolge (Standard)Stabilität bevorzugt
costNiedrigste Kosten bevorzugtBatch-Verarbeitung, kostensensitive Szenarien
latencyNiedrigste Latenz bevorzugtEchtzeit-Dialoge, Benutzerinteraktion
balancedLastverteilungSzenarien mit hoher Parallelität

Verwendung

Konfigurieren Sie die Routing-Strategie über den Erweiterungsparameter provider.routing:

routing.py
from openai import OpenAI client = OpenAI( base_url="https://api.ofox.ai/v1", api_key="<Ihr OFOXAI_API_KEY>" ) response = client.chat.completions.create( model="openai/gpt-4o", messages=[{"role": "user", "content": "Hallo"}], extra_body={ "provider": { "routing": "cost" # Niedrigste Kosten bevorzugt } } )
routing.ts
const response = await client.chat.completions.create({ model: 'openai/gpt-4o', messages: [{ role: 'user', content: 'Hallo' }], // @ts-ignore OfoxAI-Erweiterungsparameter provider: { routing: 'cost' } })

Strategien im Detail

priority — Prioritäts-Routing (Standard)

Verteilt Anfragen gemäß der von OfoxAI vordefinierten Anbieter-Prioritätsreihenfolge. Bevorzugt die stabilsten Knoten.

cost — Kostenoptimiert

Wählt automatisch den Anbieterknoten mit den aktuell niedrigsten Kosten. Geeignet für Batch-Verarbeitung, Datenannotation und andere latenztolerante Szenarien.

latency — Latenzoptimiert

Wählt den Anbieterknoten mit der niedrigsten Antwortlatenz. Geeignet für Echtzeit-Dialog-Szenarien, die schnelle Antworten erfordern.

balanced — Lastverteilung

Verteilt Anfragen gleichmäßig auf alle verfügbaren Anbieterknoten. Geeignet für Szenarien mit hoher Parallelität, um Überlastung einzelner Knoten zu vermeiden.

Best Practices

  1. Echtzeit-Dialoge mit latency — Kürzere Wartezeiten für Benutzer
  2. Batch-Aufgaben mit cost — Gesamtkosten reduzieren
  3. Produktionsumgebungen standardmäßig priority — Stabilität sicherstellen
  4. Mit Failover kombinieren — Routing-Strategien lassen sich mit dem fallback-Parameter kombinieren

Sie können auch in der OfoxAI-Konsole eine globale Standard-Routing-Strategie festlegen, ohne diese in jeder Anfrage angeben zu müssen.

Last updated on