Anbieter-Routing
OfoxAI unterstützt eine Multi-Anbieter-Architektur, bei der dasselbe Modell über verschiedene Anbieterknoten bereitgestellt werden kann. Über Routing-Strategien steuern Sie, wie Anfragen verteilt werden.
Routing-Strategien
| Strategie | Beschreibung | Einsatzgebiet |
|---|---|---|
priority | Nach Prioritätsreihenfolge (Standard) | Stabilität bevorzugt |
cost | Niedrigste Kosten bevorzugt | Batch-Verarbeitung, kostensensitive Szenarien |
latency | Niedrigste Latenz bevorzugt | Echtzeit-Dialoge, Benutzerinteraktion |
balanced | Lastverteilung | Szenarien mit hoher Parallelität |
Verwendung
Konfigurieren Sie die Routing-Strategie über den Erweiterungsparameter provider.routing:
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="<Ihr OFOXAI_API_KEY>"
)
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{"role": "user", "content": "Hallo"}],
extra_body={
"provider": {
"routing": "cost" # Niedrigste Kosten bevorzugt
}
}
)const response = await client.chat.completions.create({
model: 'openai/gpt-4o',
messages: [{ role: 'user', content: 'Hallo' }],
// @ts-ignore OfoxAI-Erweiterungsparameter
provider: {
routing: 'cost'
}
})Strategien im Detail
priority — Prioritäts-Routing (Standard)
Verteilt Anfragen gemäß der von OfoxAI vordefinierten Anbieter-Prioritätsreihenfolge. Bevorzugt die stabilsten Knoten.
cost — Kostenoptimiert
Wählt automatisch den Anbieterknoten mit den aktuell niedrigsten Kosten. Geeignet für Batch-Verarbeitung, Datenannotation und andere latenztolerante Szenarien.
latency — Latenzoptimiert
Wählt den Anbieterknoten mit der niedrigsten Antwortlatenz. Geeignet für Echtzeit-Dialog-Szenarien, die schnelle Antworten erfordern.
balanced — Lastverteilung
Verteilt Anfragen gleichmäßig auf alle verfügbaren Anbieterknoten. Geeignet für Szenarien mit hoher Parallelität, um Überlastung einzelner Knoten zu vermeiden.
Best Practices
- Echtzeit-Dialoge mit
latency— Kürzere Wartezeiten für Benutzer - Batch-Aufgaben mit
cost— Gesamtkosten reduzieren - Produktionsumgebungen standardmäßig
priority— Stabilität sicherstellen - Mit Failover kombinieren — Routing-Strategien lassen sich mit dem
fallback-Parameter kombinieren
Sie können auch in der OfoxAI-Konsole eine globale Standard-Routing-Strategie festlegen, ohne diese in jeder Anfrage angeben zu müssen.