Roteamento de provedores
O OfoxAI suporta uma arquitetura multi-provedor, onde o mesmo modelo pode ser fornecido por diferentes nós de provedores. Através de estratégias de roteamento, você controla como as requisições são distribuídas.
Estratégias de roteamento
| Estratégia | Descrição | Cenário de uso |
|---|---|---|
priority | Por ordem de prioridade (padrão) | Prioridade para estabilidade |
cost | Menor custo primeiro | Processamento em lote, cenários sensíveis a custo |
latency | Menor latência primeiro | Diálogos em tempo real, interação com usuário |
balanced | Balanceamento de carga | Cenários de alta concorrência |
Como usar
Configure a estratégia de roteamento através do parâmetro de extensão provider.routing:
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="<Sua OFOXAI_API_KEY>"
)
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{"role": "user", "content": "Olá"}],
extra_body={
"provider": {
"routing": "cost" # Menor custo primeiro
}
}
)const response = await client.chat.completions.create({
model: 'openai/gpt-4o',
messages: [{ role: 'user', content: 'Olá' }],
// @ts-ignore Parâmetro de extensão OfoxAI
provider: {
routing: 'cost'
}
})Estratégias em detalhe
priority — Roteamento por prioridade (padrão)
Distribui requisições na ordem de prioridade predefinida pelo OfoxAI. Prioriza os nós mais estáveis.
cost — Otimização de custo
Seleciona automaticamente o nó do provedor com o menor custo atual. Adequado para processamento em lote, anotação de dados e outros cenários tolerantes a latência.
latency — Otimização de latência
Seleciona o nó do provedor com a menor latência de resposta. Adequado para cenários de diálogo em tempo real que exigem respostas rápidas.
balanced — Balanceamento de carga
Distribui requisições uniformemente entre todos os nós de provedores disponíveis. Adequado para cenários de alta concorrência, evitando sobrecarga em um único nó.
Boas práticas
- Diálogos em tempo real com
latency— Menor tempo de espera para o usuário - Tarefas em lote com
cost— Reduzir custos totais - Ambientes de produção com
prioritypor padrão — Garantir estabilidade - Combinar com failover — Estratégias de roteamento podem ser combinadas com o parâmetro
fallback
Você também pode definir uma estratégia de roteamento padrão global no painel do OfoxAI, sem precisar especificar em cada requisição.