Skip to Content
DocumentaciónFunciones avanzadasEnrutamiento de proveedores

Enrutamiento de proveedores

OfoxAI soporta una arquitectura multi-proveedor donde el mismo modelo puede ser servido a través de diferentes nodos de proveedores. Mediante estrategias de enrutamiento, puede controlar cómo se distribuyen las solicitudes.

Estrategias de enrutamiento

EstrategiaDescripciónCaso de uso
priorityPor orden de prioridad (predeterminado)Prioridad a la estabilidad
costPrioridad al menor costoProcesamiento por lotes, sensible al costo
latencyPrioridad a la menor latenciaConversación en tiempo real, interacción con el usuario
balancedBalanceo de cargaEscenarios de alta concurrencia

Modo de uso

Configure la estrategia de enrutamiento mediante el parámetro extendido provider.routing:

routing.py
from openai import OpenAI client = OpenAI( base_url="https://api.ofox.ai/v1", api_key="<su OFOXAI_API_KEY>" ) response = client.chat.completions.create( model="openai/gpt-4o", messages=[{"role": "user", "content": "Hola"}], extra_body={ "provider": { "routing": "cost" # Prioridad al menor costo } } )
routing.ts
const response = await client.chat.completions.create({ model: 'openai/gpt-4o', messages: [{ role: 'user', content: 'Hola' }], // @ts-ignore Parámetro extendido de OfoxAI provider: { routing: 'cost' } })

Detalle de estrategias

priority — Enrutamiento por prioridad (predeterminado)

Distribuye las solicitudes según el orden de prioridad preestablecido por OfoxAI. Usa preferentemente los nodos con mayor estabilidad.

cost — Prioridad al costo

Selecciona automáticamente el nodo del proveedor con menor costo actual. Ideal para procesamiento por lotes, etiquetado de datos y otros escenarios donde la latencia no es crítica.

latency — Prioridad a la latencia

Selecciona el nodo del proveedor con menor latencia de respuesta. Ideal para escenarios de conversación en tiempo real que requieren respuestas rápidas.

balanced — Balanceo de carga

Distribuye las solicitudes de manera uniforme entre todos los nodos de proveedores disponibles. Ideal para escenarios de alta concurrencia, evitando la sobrecarga de un solo punto.

Mejores prácticas

  1. Conversación en tiempo real — use latency para menor tiempo de espera del usuario
  2. Tareas por lotes — use cost para reducir el costo total
  3. Entorno de producción — use priority por defecto para garantizar la estabilidad
  4. Combine con respaldo — Las estrategias de enrutamiento se pueden combinar con el parámetro fallback

También puede configurar una estrategia de enrutamiento global predeterminada en la consola de OfoxAI, sin necesidad de especificarla en cada solicitud.

Last updated on