Skip to Content
DocumentationFonctionnalités avancéesRoutage des fournisseurs

Routage de fournisseurs

OfoxAI supporte une architecture multi-fournisseurs où le même modèle peut être servi par différents n\u0153uds de fournisseurs. Grâce aux stratégies de routage, vous pouvez contrôler la distribution des requêtes.

Stratégies de routage

StratégieDescriptionCas d’utilisation
priorityPar ordre de priorité (par défaut)Priorité à la stabilité
costPriorité au coût le plus basTraitement par lots, sensible au coût
latencyPriorité à la latence la plus faibleConversation en temps réel, interaction utilisateur
balancedÉquilibrage de chargeScénarios à haute concurrence

Mode d’utilisation

Configurez la stratégie de routage via le paramètre étendu provider.routing :

routing.py
from openai import OpenAI client = OpenAI( base_url="https://api.ofox.ai/v1", api_key="<votre OFOXAI_API_KEY>" ) response = client.chat.completions.create( model="openai/gpt-4o", messages=[{"role": "user", "content": "Bonjour"}], extra_body={ "provider": { "routing": "cost" # Priorité au coût le plus bas } } )
routing.ts
const response = await client.chat.completions.create({ model: 'openai/gpt-4o', messages: [{ role: 'user', content: 'Bonjour' }], // @ts-ignore Paramètre étendu OfoxAI provider: { routing: 'cost' } })

Détail des stratégies

priority — Routage par priorité (par défaut)

Distribue les requêtes selon l’ordre de priorité prédéfini par OfoxAI. Utilise en priorité les nœuds les plus stables.

cost — Priorité au coût

Sélectionne automatiquement le nœud du fournisseur avec le coût le plus bas. Idéal pour le traitement par lots, l’étiquetage de données et autres scénarios où la latence n’est pas critique.

latency — Priorité à la latence

Sélectionne le nœud du fournisseur avec la latence de réponse la plus faible. Idéal pour les scénarios de conversation en temps réel nécessitant des réponses rapides.

balanced — Équilibrage de charge

Distribue les requêtes de manière uniforme entre tous les nœuds de fournisseurs disponibles. Idéal pour les scénarios à haute concurrence, évitant la surcharge d’un point unique.

Bonnes pratiques

  1. Conversation en temps réel — utilisez latency pour un temps d’attente utilisateur réduit
  2. Tâches par lots — utilisez cost pour réduire le coût global
  3. Environnement de production — utilisez priority par défaut pour garantir la stabilité
  4. Combinez avec le repli — Les stratégies de routage peuvent être combinées avec le paramètre fallback

Vous pouvez également configurer une stratégie de routage globale par défaut dans la console OfoxAI, sans avoir à la spécifier dans chaque requête.

Last updated on