Enrutamiento inteligente de modelos
El enrutamiento inteligente de modelos de OfoxAI selecciona automáticamente el mejor modelo para su solicitud, optimizando por costo, velocidad, calidad y otras dimensiones.
Modo Auto
La forma más sencilla de usar — establezca model: "auto" y deje que OfoxAI elija automáticamente:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Explica la computación cuántica"}]
)
# Ver el modelo realmente utilizado
print(response.model) # p. ej. "openai/gpt-4o"El modo Auto selecciona automáticamente el modelo más adecuado según la complejidad del contenido de la solicitud y el estado de los modelos disponibles.
Configuración del pool de modelos
Puede especificar un pool de modelos candidatos y preferencias de enrutamiento:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Ayúdame a optimizar este código"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3-flash-preview"
],
"preference": "quality" # Prioridad por calidad
}
}
)Preferencias de enrutamiento
| Preferencia | Descripción |
|---|---|
balanced | Considera calidad, velocidad y costo de forma equilibrada (predeterminado) |
quality | Prioridad por calidad, selecciona el modelo más capaz |
speed | Prioridad por velocidad, selecciona el modelo con menor latencia |
cost | Prioridad por costo, selecciona el modelo más económico |
Casos de uso
Optimización de costos
Para conversaciones simples, usa automáticamente modelos económicos; para tareas complejas, modelos de gama alta:
# Escenario simple → puede seleccionar gpt-4o-mini o gemini-3-flash-preview
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "¿Qué día es hoy?"}],
extra_body={"model_routing_config": {"preference": "cost"}}
)Alta disponibilidad
Especifique múltiples modelos alternativos para garantizar la continuidad del servicio:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Analiza las tendencias del mercado"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3.1-pro-preview"
],
"preference": "balanced"
}
}
)El enrutamiento inteligente detecta automáticamente el estado en tiempo real de cada modelo (latencia, disponibilidad, carga) y realiza la selección óptima dentro del pool de candidatos.