Routage de fournisseurs
OfoxAI supporte une architecture multi-fournisseurs où le même modèle peut être servi par différents n\u0153uds de fournisseurs. Grâce aux stratégies de routage, vous pouvez contrôler la distribution des requêtes.
Stratégies de routage
| Stratégie | Description | Cas d’utilisation |
|---|---|---|
priority | Par ordre de priorité (par défaut) | Priorité à la stabilité |
cost | Priorité au coût le plus bas | Traitement par lots, sensible au coût |
latency | Priorité à la latence la plus faible | Conversation en temps réel, interaction utilisateur |
balanced | Équilibrage de charge | Scénarios à haute concurrence |
Mode d’utilisation
Configurez la stratégie de routage via le paramètre étendu provider.routing :
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="<votre OFOXAI_API_KEY>"
)
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{"role": "user", "content": "Bonjour"}],
extra_body={
"provider": {
"routing": "cost" # Priorité au coût le plus bas
}
}
)const response = await client.chat.completions.create({
model: 'openai/gpt-4o',
messages: [{ role: 'user', content: 'Bonjour' }],
// @ts-ignore Paramètre étendu OfoxAI
provider: {
routing: 'cost'
}
})Détail des stratégies
priority — Routage par priorité (par défaut)
Distribue les requêtes selon l’ordre de priorité prédéfini par OfoxAI. Utilise en priorité les nœuds les plus stables.
cost — Priorité au coût
Sélectionne automatiquement le nœud du fournisseur avec le coût le plus bas. Idéal pour le traitement par lots, l’étiquetage de données et autres scénarios où la latence n’est pas critique.
latency — Priorité à la latence
Sélectionne le nœud du fournisseur avec la latence de réponse la plus faible. Idéal pour les scénarios de conversation en temps réel nécessitant des réponses rapides.
balanced — Équilibrage de charge
Distribue les requêtes de manière uniforme entre tous les nœuds de fournisseurs disponibles. Idéal pour les scénarios à haute concurrence, évitant la surcharge d’un point unique.
Bonnes pratiques
- Conversation en temps réel — utilisez
latencypour un temps d’attente utilisateur réduit - Tâches par lots — utilisez
costpour réduire le coût global - Environnement de production — utilisez
prioritypar défaut pour garantir la stabilité - Combinez avec le repli — Les stratégies de routage peuvent être combinées avec le paramètre
fallback
Vous pouvez également configurer une stratégie de routage globale par défaut dans la console OfoxAI, sans avoir à la spécifier dans chaque requête.