Skip to Content
ДокументацияПродвинутые функцииМаршрутизация провайдеров

Маршрутизация провайдеров

OfoxAI поддерживает мультипровайдерную архитектуру — одна и та же модель может обслуживаться через разные узлы провайдеров. С помощью стратегий маршрутизации вы управляете распределением запросов.

Стратегии маршрутизации

СтратегияОписаниеПрименение
priorityПо приоритету (по умолчанию)Приоритет стабильности
costМинимальная стоимостьПакетная обработка, чувствительность к затратам
latencyМинимальная задержкаДиалоги в реальном времени, пользовательское взаимодействие
balancedБалансировка нагрузкиСценарии высокой конкурентности

Способ использования

Настройте стратегию маршрутизации через расширенный параметр provider.routing:

routing.py
from openai import OpenAI client = OpenAI( base_url="https://api.ofox.ai/v1", api_key="<Ваш OFOXAI_API_KEY>" ) response = client.chat.completions.create( model="openai/gpt-4o", messages=[{"role": "user", "content": "Здравствуйте"}], extra_body={ "provider": { "routing": "cost" # минимальная стоимость } } )
routing.ts
const response = await client.chat.completions.create({ model: 'openai/gpt-4o', messages: [{ role: 'user', content: 'Здравствуйте' }], // @ts-ignore расширенные параметры OfoxAI provider: { routing: 'cost' } })

Подробное описание стратегий

priority — Маршрутизация по приоритету (по умолчанию)

Распределяет запросы в порядке предустановленного приоритета провайдеров OfoxAI. В первую очередь используются наиболее стабильные узлы.

cost — Приоритет стоимости

Автоматически выбирает узел провайдера с наименьшей стоимостью. Подходит для пакетной обработки, разметки данных и других сценариев, нечувствительных к задержке.

latency — Приоритет задержки

Выбирает узел провайдера с наименьшей задержкой ответа. Подходит для диалогов в реальном времени, требующих быстрых ответов.

balanced — Балансировка нагрузки

Равномерно распределяет запросы по всем доступным узлам провайдеров. Подходит для сценариев высокой конкурентности, предотвращая перегрузку отдельных узлов.

Лучшие практики

  1. Для диалогов в реальном времени используйте latency — сокращение времени ожидания пользователя
  2. Для пакетных задач используйте cost — снижение общих затрат
  3. Для продакшена по умолчанию priority — обеспечение стабильности
  4. Комбинируйте с аварийным переключением — стратегию маршрутизации можно использовать совместно с параметром fallback

Вы также можете настроить глобальную стратегию маршрутизации по умолчанию в консоли OfoxAI без необходимости указывать её в каждом запросе.

Last updated on