Intelligentes Modell-Routing
Das intelligente Modell-Routing von OfoxAI wählt automatisch das beste Modell für Ihre Anfrage aus und optimiert dabei nach Kosten, Geschwindigkeit, Qualität und weiteren Kriterien.
Auto-Modus
Die einfachste Nutzung — setzen Sie model: "auto" und lassen Sie OfoxAI automatisch entscheiden:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Erklaeren Sie Quantencomputing"}]
)
# Tatsächlich verwendetes Modell anzeigen
print(response.model) # z. B. "openai/gpt-4o"Der Auto-Modus wählt anhand der Komplexität des Anfrageinhalts und des aktuellen Status der verfügbaren Modelle das am besten geeignete Modell.
Modellpool-Konfiguration
Sie können einen Kandidatenpool und eine Routing-Präferenz festlegen:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Helfen Sie mir, diesen Code zu optimieren"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3-flash-preview"
],
"preference": "quality" # Qualität bevorzugt
}
}
)Routing-Präferenzen
| Präferenz | Beschreibung |
|---|---|
balanced | Ausgewogene Berücksichtigung von Qualität, Geschwindigkeit und Kosten (Standard) |
quality | Qualität bevorzugt — das leistungsstärkste Modell wird gewählt |
speed | Geschwindigkeit bevorzugt — das schnellste Modell wird gewählt |
cost | Kosten bevorzugt — das günstigste Modell wird gewählt |
Anwendungsszenarien
Kostenoptimierung
Für einfache Konversationen wird automatisch ein günstiges Modell verwendet; für komplexe Aufgaben ein leistungsstarkes:
# Einfaches Szenario → z. B. gpt-4o-mini oder gemini-3-flash-preview
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Welcher Wochentag ist heute?"}],
extra_body={"model_routing_config": {"preference": "cost"}}
)Hohe Verfügbarkeit
Geben Sie mehrere Ersatzmodelle an, um einen unterbrechungsfreien Dienst sicherzustellen:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Analysieren Sie Markttrends"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3.1-pro-preview"
],
"preference": "balanced"
}
}
)Das intelligente Routing erfasst in Echtzeit den Status jedes Modells (Latenz, Verfügbarkeit, Auslastung) und trifft im Kandidatenpool die optimale Wahl.