智慧模型路由
OfoxAI 的智慧模型路由可以自動為你的請求選擇最佳模型,基於成本、速度、品質等維度進行最佳化。
Auto 模式
最簡單的使用方式 — 設定 model: "auto",讓 OfoxAI 自動選擇:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "解釋量子計算"}]
)
# 查看實際使用的模型
print(response.model) # 如 "openai/gpt-4o"Auto 模式會根據請求內容的複雜度和可用模型的狀態,自動選擇最合適的模型。
模型池設定
你可以指定候選模型池和路由偏好:
model_routing.py
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "幫我最佳化這段程式碼"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3-flash-preview"
],
"preference": "quality" # 品質優先
}
}
)路由偏好
| 偏好 | 說明 |
|---|---|
balanced | 綜合考慮品質、速度和成本(預設) |
quality | 品質優先,選擇能力最強的模型 |
speed | 速度優先,選擇回應最快的模型 |
cost | 成本優先,選擇最便宜的模型 |
使用場景
成本最佳化
對於簡單對話,自動使用便宜的模型;複雜任務使用高端模型:
# 簡單場景 → 可能選擇 gpt-4o-mini 或 gemini-3-flash-preview
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "今天星期幾?"}],
extra_body={"model_routing_config": {"preference": "cost"}}
)高可用
指定多個備選模型,確保服務不中斷:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "分析市場趨勢"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-3.1-pro-preview"
],
"preference": "balanced"
}
}
)智慧路由會自動感知各模型的即時狀態(延遲、可用性、負載),在候選池中做出最優選擇。
Last updated on