Skip to Content
DocumentaçãoRecursos avançadosRoteamento inteligente de modelos

Roteamento inteligente de modelos

O roteamento inteligente de modelos do OfoxAI seleciona automaticamente o melhor modelo para a sua requisição, otimizando por custo, velocidade, qualidade e outros critérios.

Modo Auto

A forma mais simples de uso — defina model: "auto" e deixe o OfoxAI escolher automaticamente:

response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "Explique a computação quântica"}] ) # Verificar o modelo efetivamente utilizado print(response.model) # ex: "openai/gpt-4o"

O modo Auto seleciona o modelo mais adequado com base na complexidade do conteúdo da requisição e no estado atual dos modelos disponíveis.

Configuração do pool de modelos

Você pode especificar um pool de modelos candidatos e a preferência de roteamento:

model_routing.py
response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "Me ajude a otimizar este código"}], extra_body={ "model_routing_config": { "models": [ "openai/gpt-4o", "anthropic/claude-sonnet-4.5", "google/gemini-3-flash-preview" ], "preference": "quality" # Prioridade para qualidade } } )

Preferências de roteamento

PreferênciaDescrição
balancedConsidera qualidade, velocidade e custo de forma equilibrada (padrão)
qualityPrioridade para qualidade — seleciona o modelo mais capaz
speedPrioridade para velocidade — seleciona o modelo mais rápido
costPrioridade para custo — seleciona o modelo mais barato

Cenários de uso

Otimização de custos

Para conversas simples, um modelo econômico é usado automaticamente; para tarefas complexas, um modelo de alta performance:

# Cenário simples → pode selecionar gpt-4o-mini ou gemini-3-flash-preview response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "Que dia da semana é hoje?"}], extra_body={"model_routing_config": {"preference": "cost"}} )

Alta disponibilidade

Especifique múltiplos modelos alternativos para garantir que o serviço não seja interrompido:

response = client.chat.completions.create( model="auto", messages=[{"role": "user", "content": "Analise as tendências do mercado"}], extra_body={ "model_routing_config": { "models": [ "openai/gpt-4o", "anthropic/claude-sonnet-4.5", "google/gemini-3.1-pro-preview" ], "preference": "balanced" } } )

O roteamento inteligente monitora em tempo real o estado de cada modelo (latência, disponibilidade, carga) e faz a escolha ideal dentro do pool de candidatos.

Last updated on