Failover
Der Failover-Mechanismus von OfoxAI wechselt bei Nichtverfügbarkeit des primären Modells automatisch auf ein Ersatzmodell, damit Ihr Dienst unterbrechungsfrei bleibt.
Funktionsweise
- Die Anfrage wird an das primäre Modell gesendet
- Liefert das primäre Modell einen Fehler (5xx, Timeout, Drosselung usw.)
- werden die Modelle der Fallback-Liste der Reihe nach versucht
- Die erste erfolgreiche Antwort wird zurückgegeben
Fallback pro Anfrage
Konfigurieren Sie über den Parameter provider.fallback einen Fallback für eine einzelne Anfrage:
fallback.py
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="<Ihr OFOXAI_API_KEY>"
)
response = client.chat.completions.create(
model="openai/gpt-4o", # Primäres Modell
messages=[{"role": "user", "content": "Hallo"}],
extra_body={
"provider": {
"fallback": [
"anthropic/claude-sonnet-4.5", # Erste Alternative
"google/gemini-3-flash-preview" # Zweite Alternative
]
}
}
)
# Tatsächlich verwendetes Modell anzeigen
print(response.model)fallback.ts
const response = await client.chat.completions.create({
model: 'openai/gpt-4o',
messages: [{ role: 'user', content: 'Hallo' }],
// @ts-ignore OfoxAI-Erweiterungsparameter
provider: {
fallback: [
'anthropic/claude-sonnet-4.5',
'google/gemini-3-flash-preview'
]
}
})Globale Fallback-Konfiguration
Konfigurieren Sie in der OfoxAI-Konsole eine globale Fallback-Strategie, ohne diese in jeder Anfrage angeben zu müssen:
- Melden Sie sich bei der OfoxAI-Konsole an
- Navigieren Sie zu Einstellungen → Routing-Strategie
- Konfigurieren Sie die Standard-Fallback-Modellliste
Der fallback-Parameter auf Anfrageebene überschreibt die globale Konfiguration.
Auslösebedingungen
Folgende Situationen lösen einen Fallback aus:
| Bedingung | Beschreibung |
|---|---|
| HTTP 5xx | Serverfehler |
| Timeout | Antwort-Zeitüberschreitung des Modells |
| 429 Drosselung | Ratenlimit beim Upstream-Modell erreicht |
| Modell nicht verfügbar | Wartung oder Abschaltung beim Anbieter |
Folgende Situationen lösen keinen Fallback aus:
| Bedingung | Beschreibung |
|---|---|
| HTTP 4xx (außer 429) | Clientfehler erfordern eine Korrektur der Anfrage |
| Inhaltsfilterung | Vom Modell abgelehnte Inhalte |
Kombination mit Routing
Der Fallback-Mechanismus lässt sich mit Anbieter-Routing kombinieren:
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{"role": "user", "content": "Hallo"}],
extra_body={
"provider": {
"routing": "latency", # Latenz-optimiertes Routing
"fallback": [ # Fallback-Liste
"anthropic/claude-sonnet-4.5",
"google/gemini-3-flash-preview"
]
}
}
)Empfohlene Fallback-Szenarien
Allgemeine Konversation
"provider": {
"fallback": ["anthropic/claude-sonnet-4.5", "google/gemini-3-flash-preview"]
}Codegenerierung
"provider": {
"fallback": ["anthropic/claude-sonnet-4.5", "deepseek/deepseek-chat"]
}Kostenoptimiert
"provider": {
"fallback": ["openai/gpt-4o-mini", "google/gemini-3-flash-preview", "deepseek/deepseek-chat"]
}Best Practices
- Ersatzmodelle mit vergleichbarer Leistung wählen — So bleibt die Ausgabequalität nach einem Fallback konsistent
- Anbieterübergreifend konfigurieren — Vermeiden Sie, dass Modelle desselben Anbieters gleichzeitig ausfallen
- 2–3 Alternativen festlegen — Das genügt für die meisten Ausfallszenarien
- Fallback-Häufigkeit überwachen — Häufige Fallbacks können darauf hinweisen, dass das primäre Modell gewechselt werden sollte
Last updated on