Skip to Content
DocumentaçãoRecursos avançadosRoteamento de provedores

Roteamento de provedores

O OfoxAI suporta uma arquitetura multi-provedor, onde o mesmo modelo pode ser fornecido por diferentes nós de provedores. Através de estratégias de roteamento, você controla como as requisições são distribuídas.

Estratégias de roteamento

EstratégiaDescriçãoCenário de uso
priorityPor ordem de prioridade (padrão)Prioridade para estabilidade
costMenor custo primeiroProcessamento em lote, cenários sensíveis a custo
latencyMenor latência primeiroDiálogos em tempo real, interação com usuário
balancedBalanceamento de cargaCenários de alta concorrência

Como usar

Configure a estratégia de roteamento através do parâmetro de extensão provider.routing:

routing.py
from openai import OpenAI client = OpenAI( base_url="https://api.ofox.ai/v1", api_key="<Sua OFOXAI_API_KEY>" ) response = client.chat.completions.create( model="openai/gpt-4o", messages=[{"role": "user", "content": "Olá"}], extra_body={ "provider": { "routing": "cost" # Menor custo primeiro } } )
routing.ts
const response = await client.chat.completions.create({ model: 'openai/gpt-4o', messages: [{ role: 'user', content: 'Olá' }], // @ts-ignore Parâmetro de extensão OfoxAI provider: { routing: 'cost' } })

Estratégias em detalhe

priority — Roteamento por prioridade (padrão)

Distribui requisições na ordem de prioridade predefinida pelo OfoxAI. Prioriza os nós mais estáveis.

cost — Otimização de custo

Seleciona automaticamente o nó do provedor com o menor custo atual. Adequado para processamento em lote, anotação de dados e outros cenários tolerantes a latência.

latency — Otimização de latência

Seleciona o nó do provedor com a menor latência de resposta. Adequado para cenários de diálogo em tempo real que exigem respostas rápidas.

balanced — Balanceamento de carga

Distribui requisições uniformemente entre todos os nós de provedores disponíveis. Adequado para cenários de alta concorrência, evitando sobrecarga em um único nó.

Boas práticas

  1. Diálogos em tempo real com latency — Menor tempo de espera para o usuário
  2. Tarefas em lote com cost — Reduzir custos totais
  3. Ambientes de produção com priority por padrão — Garantir estabilidade
  4. Combinar com failover — Estratégias de roteamento podem ser combinadas com o parâmetro fallback

Você também pode definir uma estratégia de roteamento padrão global no painel do OfoxAI, sem precisar especificar em cada requisição.

Last updated on