Skip to Content
DocumentaciónFunciones avanzadasEnrutamiento inteligente

Enrutamiento inteligente de modelos

El enrutamiento inteligente de modelos de OfoxAI selecciona automáticamente el mejor modelo para su solicitud, optimizando por costo, velocidad, calidad y otras dimensiones.

Modo Auto

La forma más sencilla de usar — establezca model: "auto" y deje que OfoxAI elija automáticamente:

response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "Explica la computación cuántica"}] ) # Ver el modelo realmente utilizado print(response.model) # p. ej. "openai/gpt-4o"

El modo Auto selecciona automáticamente el modelo más adecuado según la complejidad del contenido de la solicitud y el estado de los modelos disponibles.

Configuración del pool de modelos

Puede especificar un pool de modelos candidatos y preferencias de enrutamiento:

model_routing.py
response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "Ayúdame a optimizar este código"}], extra_body={ "model_routing_config": { "models": [ "openai/gpt-4o", "anthropic/claude-sonnet-4.5", "google/gemini-3-flash-preview" ], "preference": "quality" # Prioridad por calidad } } )

Preferencias de enrutamiento

PreferenciaDescripción
balancedConsidera calidad, velocidad y costo de forma equilibrada (predeterminado)
qualityPrioridad por calidad, selecciona el modelo más capaz
speedPrioridad por velocidad, selecciona el modelo con menor latencia
costPrioridad por costo, selecciona el modelo más económico

Casos de uso

Optimización de costos

Para conversaciones simples, usa automáticamente modelos económicos; para tareas complejas, modelos de gama alta:

# Escenario simple → puede seleccionar gpt-4o-mini o gemini-3-flash-preview response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "¿Qué día es hoy?"}], extra_body={"model_routing_config": {"preference": "cost"}} )

Alta disponibilidad

Especifique múltiples modelos alternativos para garantizar la continuidad del servicio:

response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "Analiza las tendencias del mercado"}], extra_body={ "model_routing_config": { "models": [ "openai/gpt-4o", "anthropic/claude-sonnet-4.5", "google/gemini-3.1-pro-preview" ], "preference": "balanced" } } )

El enrutamiento inteligente detecta automáticamente el estado en tiempo real de cada modelo (latencia, disponibilidad, carga) y realiza la selección óptima dentro del pool de candidatos.

Last updated on