Skip to Content
DokumentationErweiterte FunktionenIntelligentes Modell-Routing

Intelligentes Modell-Routing

Das intelligente Modell-Routing von OfoxAI wählt automatisch das beste Modell für Ihre Anfrage aus und optimiert dabei nach Kosten, Geschwindigkeit, Qualität und weiteren Kriterien.

Auto-Modus

Die einfachste Nutzung — setzen Sie model: "auto" und lassen Sie OfoxAI automatisch entscheiden:

response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "Erklaeren Sie Quantencomputing"}] ) # Tatsächlich verwendetes Modell anzeigen print(response.model) # z. B. "openai/gpt-4o"

Der Auto-Modus wählt anhand der Komplexität des Anfrageinhalts und des aktuellen Status der verfügbaren Modelle das am besten geeignete Modell.

Modellpool-Konfiguration

Sie können einen Kandidatenpool und eine Routing-Präferenz festlegen:

model_routing.py
response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "Helfen Sie mir, diesen Code zu optimieren"}], extra_body={ "model_routing_config": { "models": [ "openai/gpt-4o", "anthropic/claude-sonnet-4.5", "google/gemini-3-flash-preview" ], "preference": "quality" # Qualität bevorzugt } } )

Routing-Präferenzen

PräferenzBeschreibung
balancedAusgewogene Berücksichtigung von Qualität, Geschwindigkeit und Kosten (Standard)
qualityQualität bevorzugt — das leistungsstärkste Modell wird gewählt
speedGeschwindigkeit bevorzugt — das schnellste Modell wird gewählt
costKosten bevorzugt — das günstigste Modell wird gewählt

Anwendungsszenarien

Kostenoptimierung

Für einfache Konversationen wird automatisch ein günstiges Modell verwendet; für komplexe Aufgaben ein leistungsstarkes:

# Einfaches Szenario → z. B. gpt-4o-mini oder gemini-3-flash-preview response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "Welcher Wochentag ist heute?"}], extra_body={"model_routing_config": {"preference": "cost"}} )

Hohe Verfügbarkeit

Geben Sie mehrere Ersatzmodelle an, um einen unterbrechungsfreien Dienst sicherzustellen:

response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "Analysieren Sie Markttrends"}], extra_body={ "model_routing_config": { "models": [ "openai/gpt-4o", "anthropic/claude-sonnet-4.5", "google/gemini-3.1-pro-preview" ], "preference": "balanced" } } )

Das intelligente Routing erfasst in Echtzeit den Status jedes Modells (Latenz, Verfügbarkeit, Auslastung) und trifft im Kandidatenpool die optimale Wahl.

Last updated on