Маршрутизация провайдеров
OfoxAI поддерживает мультипровайдерную архитектуру — одна и та же модель может обслуживаться через разные узлы провайдеров. С помощью стратегий маршрутизации вы управляете распределением запросов.
Стратегии маршрутизации
| Стратегия | Описание | Применение |
|---|---|---|
priority | По приоритету (по умолчанию) | Приоритет стабильности |
cost | Минимальная стоимость | Пакетная обработка, чувствительность к затратам |
latency | Минимальная задержка | Диалоги в реальном времени, пользовательское взаимодействие |
balanced | Балансировка нагрузки | Сценарии высокой конкурентности |
Способ использования
Настройте стратегию маршрутизации через расширенный параметр provider.routing:
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="<Ваш OFOXAI_API_KEY>"
)
response = client.chat.completions.create(
model="openai/gpt-4o",
messages=[{"role": "user", "content": "Здравствуйте"}],
extra_body={
"provider": {
"routing": "cost" # минимальная стоимость
}
}
)const response = await client.chat.completions.create({
model: 'openai/gpt-4o',
messages: [{ role: 'user', content: 'Здравствуйте' }],
// @ts-ignore расширенные параметры OfoxAI
provider: {
routing: 'cost'
}
})Подробное описание стратегий
priority — Маршрутизация по приоритету (по умолчанию)
Распределяет запросы в порядке предустановленного приоритета провайдеров OfoxAI. В первую очередь используются наиболее стабильные узлы.
cost — Приоритет стоимости
Автоматически выбирает узел провайдера с наименьшей стоимостью. Подходит для пакетной обработки, разметки данных и других сценариев, нечувствительных к задержке.
latency — Приоритет задержки
Выбирает узел провайдера с наименьшей задержкой ответа. Подходит для диалогов в реальном времени, требующих быстрых ответов.
balanced — Балансировка нагрузки
Равномерно распределяет запросы по всем доступным узлам провайдеров. Подходит для сценариев высокой конкурентности, предотвращая перегрузку отдельных узлов.
Лучшие практики
- Для диалогов в реальном времени используйте
latency— сокращение времени ожидания пользователя - Для пакетных задач используйте
cost— снижение общих затрат - Для продакшена по умолчанию
priority— обеспечение стабильности - Комбинируйте с аварийным переключением — стратегию маршрутизации можно использовать совместно с параметром
fallback
Вы также можете настроить глобальную стратегию маршрутизации по умолчанию в консоли OfoxAI без необходимости указывать её в каждом запросе.