Интеллектуальная маршрутизация моделей
Интеллектуальная маршрутизация моделей OfoxAI автоматически выбирает лучшую модель для вашего запроса, оптимизируя по стоимости, скорости, качеству и другим параметрам.
Режим Auto
Самый простой способ использования — установить model: "auto" и позволить OfoxAI выбрать автоматически:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Объясните квантовые вычисления"}]
)
# Проверить фактически использованную модель
print(response.model) # например "openai/gpt-4o"Режим Auto автоматически выбирает наиболее подходящую модель на основе сложности запроса и состояния доступных моделей.
Настройка пула моделей
Вы можете указать пул кандидатных моделей и предпочтения маршрутизации:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Помоги оптимизировать этот код"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3-flash-preview"
],
"preference": "quality" # приоритет качества
}
}
)Предпочтения маршрутизации
| Предпочтение | Описание |
|---|---|
balanced | Баланс качества, скорости и стоимости (по умолчанию) |
quality | Приоритет качества — выбирается самая мощная модель |
speed | Приоритет скорости — выбирается самая быстрая модель |
cost | Приоритет стоимости — выбирается самая дешёвая модель |
Сценарии использования
Оптимизация затрат
Для простых диалогов автоматически используются дешёвые модели; для сложных задач — мощные модели:
# Простой сценарий → возможен выбор gpt-4o-mini или gemini-3-flash-preview
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Какой сегодня день недели?"}],
extra_body={"model_routing_config": {"preference": "cost"}}
)Высокая доступность
Укажите несколько резервных моделей для обеспечения бесперебойной работы:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Проанализируйте рыночные тренды"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3.1-pro-preview"
],
"preference": "balanced"
}
}
)Интеллектуальная маршрутизация автоматически отслеживает состояние каждой модели в реальном времени (задержка, доступность, нагрузка) и делает оптимальный выбор из пула кандидатов.