Roteamento inteligente de modelos
O roteamento inteligente de modelos do OfoxAI seleciona automaticamente o melhor modelo para a sua requisição, otimizando por custo, velocidade, qualidade e outros critérios.
Modo Auto
A forma mais simples de uso — defina model: "auto" e deixe o OfoxAI escolher automaticamente:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Explique a computação quântica"}]
)
# Verificar o modelo efetivamente utilizado
print(response.model) # ex: "openai/gpt-4o"O modo Auto seleciona o modelo mais adequado com base na complexidade do conteúdo da requisição e no estado atual dos modelos disponíveis.
Configuração do pool de modelos
Você pode especificar um pool de modelos candidatos e a preferência de roteamento:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Me ajude a otimizar este código"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3-flash-preview"
],
"preference": "quality" # Prioridade para qualidade
}
}
)Preferências de roteamento
| Preferência | Descrição |
|---|---|
balanced | Considera qualidade, velocidade e custo de forma equilibrada (padrão) |
quality | Prioridade para qualidade — seleciona o modelo mais capaz |
speed | Prioridade para velocidade — seleciona o modelo mais rápido |
cost | Prioridade para custo — seleciona o modelo mais barato |
Cenários de uso
Otimização de custos
Para conversas simples, um modelo econômico é usado automaticamente; para tarefas complexas, um modelo de alta performance:
# Cenário simples → pode selecionar gpt-4o-mini ou gemini-3-flash-preview
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Que dia da semana é hoje?"}],
extra_body={"model_routing_config": {"preference": "cost"}}
)Alta disponibilidade
Especifique múltiplos modelos alternativos para garantir que o serviço não seja interrompido:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Analise as tendências do mercado"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3.1-pro-preview"
],
"preference": "balanced"
}
}
)O roteamento inteligente monitora em tempo real o estado de cada modelo (latência, disponibilidade, carga) e faz a escolha ideal dentro do pool de candidatos.